論文の概要: Efficient Stitchable Task Adaptation
- arxiv url: http://arxiv.org/abs/2311.17352v1
- Date: Wed, 29 Nov 2023 04:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:43:04.952642
- Title: Efficient Stitchable Task Adaptation
- Title(参考訳): 効率的な安定タスク適応
- Authors: Haoyu He, Zizheng Pan, Jing Liu, Jianfei Cai, Bohan Zhuang
- Abstract要約: 本稿では,細調整されたモデルのパレットを効率よく生成するために,ESTA(Efficient Stitchable Task Adaptation)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
- 参考スコア(独自算出の注目度): 51.44102371192483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of pre-training and fine-tuning has laid the foundation for
deploying deep learning models. However, most fine-tuning methods are designed
to meet a specific resource budget. Recently, considering diverse deployment
scenarios with various resource budgets, stitchable neural network (SN-Net) is
introduced to quickly obtain numerous new networks (stitches) from the
pre-trained models (anchors) in a model family via model stitching. Although
promising, SN-Net confronts new challenges when adapting it to new target
domains, including huge memory and storage requirements and a long and
sub-optimal multistage adaptation process. In this work, we present a novel
framework, Efficient Stitchable Task Adaptation (ESTA), to efficiently produce
a palette of fine-tuned models that adhere to diverse resource constraints.
Specifically, we first tailor parameter-efficient fine-tuning to share low-rank
updates among the stitches while maintaining independent bias terms. In this
way, we largely reduce fine-tuning memory burdens and mitigate the interference
among stitches that arises in task adaptation. Furthermore, we streamline a
simple yet effective one-stage deployment pipeline, which estimates the
important stitches to deploy with training-time gradient statistics. By
assigning higher sampling probabilities to important stitches, we also get a
boosted Pareto frontier. Extensive experiments on 25 downstream visual
recognition tasks demonstrate that our ESTA is capable of generating stitches
with smooth accuracy-efficiency trade-offs and surpasses the direct SN-Net
adaptation by remarkable margins with significantly lower training time and
fewer trainable parameters. Furthermore, we demonstrate the flexibility and
scalability of our ESTA framework by stitching LLMs from LLaMA family,
obtaining chatbot stitches of assorted sizes.
- Abstract(参考訳): 事前トレーニングと微調整のパラダイムは、ディープラーニングモデルのデプロイの基礎を築いた。
しかし、ほとんどの微調整方法は特定のリソース予算を満たすように設計されている。
近年、様々なリソース予算を伴う多様なデプロイメントシナリオを考慮して、ステッチブルニューラルネットワーク(sn-net)を導入し、モデルステッチリングを介してモデルファミリー内の事前学習モデル(anchors)から多数の新しいネットワーク(stitches)を迅速に得る。
有望ではあるが、SN-Netは新しいターゲットドメインに適応する際の新たな課題に直面している。
本研究では,多様な資源制約に順応する微調整モデルのパレットを効率よく生成する新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には, 独立バイアス項を維持しつつ, 低ランク更新をステッチ間で共有するために, パラメータ効率の良い微調整を行う。
このようにして、我々は微調整メモリの負担を大幅に減らし、タスク適応時に生じる縫合の干渉を軽減する。
さらに,単純かつ効果的なワンステージデプロイメントパイプラインを合理化し,トレーニング時の勾配統計を用いてデプロイに必要な重要なスティッチを見積もる。
重要な縫合に高いサンプリング確率を割り当てることで、強化されたパレートフロンティアも得られる。
25のダウンストリーム視覚認識タスクに関する広範囲な実験により,estaはスムースな精度と効率のトレードオフを持つ縫い目を生成し,トレーニング時間を大幅に削減し,トレーニング可能なパラメータを少なくした画期的なマージンによる直接sn-net適応を上回った。
さらに,LLaMA ファミリーから LLM を縫合し,様々なサイズのチャットボットを縫合することで,ESTA フレームワークの柔軟性とスケーラビリティを示す。
関連論文リスト
- RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。
本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文 参考訳(メタデータ) (2024-11-25T19:08:38Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T11:02:05Z) - Building Variable-sized Models via Learngene Pool [39.99697115082106]
近年,Stitchable Neural Networks (SN-Net) が提案されている。
SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。
本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:46:01Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。