Fugu-MT 論文翻訳(概要): Efficient Stitchable Task Adaptation

論文の概要: Efficient Stitchable Task Adaptation

arxiv url: http://arxiv.org/abs/2311.17352v2
Date: Tue, 9 Jul 2024 01:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 00:21:19.268525
Title: Efficient Stitchable Task Adaptation
Title（参考訳）: 効率的な安定タスク適応
Authors: Haoyu He, Zizheng Pan, Jing Liu, Jianfei Cai, Bohan Zhuang,
Abstract要約: そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
参考スコア（独自算出の注目度）: 47.94819192325723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The paradigm of pre-training and fine-tuning has laid the foundation for deploying deep learning models. However, most fine-tuning methods are designed to meet a specific resource budget. Recently, considering diverse deployment scenarios with various resource budgets, SN-Net is introduced to quickly obtain numerous new networks (stitches) from the pre-trained models (anchors) in a model family via model stitching. Although promising, SN-Net confronts new challenges when adapting it to new target domains, including huge memory and storage requirements and a long and sub-optimal multistage adaptation process. In this work, we present a novel framework, Efficient Stitchable Task Adaptation (ESTA), to efficiently produce a palette of fine-tuned models that adhere to diverse resource constraints. Specifically, we first tailor parameter-efficient fine-tuning to share low-rank updates among the stitches while maintaining independent bias terms. In this way, we largely reduce fine-tuning memory burdens and mitigate the interference among stitches that arises in task adaptation. Furthermore, we streamline a simple yet effective one-stage deployment pipeline, which estimates the important stitches to deploy with training-time gradient statistics. By assigning higher sampling probabilities to important stitches, we also get a boosted Pareto frontier. Extensive experiments on 25 downstream visual recognition tasks demonstrate that our ESTA is capable of generating stitches with smooth accuracy-efficiency trade-offs and surpasses the direct SN-Net adaptation by remarkable margins with significantly lower training time and fewer trainable parameters. Furthermore, we demonstrate the flexibility and scalability of our ESTA framework by stitching LLMs from LLaMA family, obtaining chatbot stitches of assorted sizes. Source code is available at https://github.com/ziplab/Stitched_LLaMA
Abstract（参考訳）: 事前トレーニングと微調整のパラダイムは、ディープラーニングモデルをデプロイするための基盤となっている。しかし、ほとんどの微調整方法は特定のリソース予算を満たすように設計されている。近年,様々な資源予算による多様な展開シナリオを考慮すると,SN-Netはモデル縫合によりモデルファミリー内の事前訓練されたモデル(アンカー)から多数の新しいネットワーク(スティッチ)を迅速に得るために導入されている。有望ではあるが、SN-Netは新しいターゲットドメインに適応する際の新たな課題に直面している。本研究では,多様な資源制約に順応する微調整モデルのパレットを効率よく生成する新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。具体的には、独立したバイアス項を維持しつつ、縫い目間で低ランク更新を共有するために、パラメータ効率の高い微調整を第1に調整する。このようにして、我々は微調整メモリの負担を大幅に減らし、タスク適応時に生じる縫合の干渉を軽減する。さらに、トレーニング時間勾配統計を用いてデプロイするための重要な縫合を推定する、シンプルで効果的なワンステージデプロイメントパイプラインを合理化します。重要な縫合に高いサンプリング確率を割り当てることで、強化されたパレートフロンティアも得られる。 25下流の視覚認識タスクにおける広範囲な実験により、我々のESTAはスムーズな精度と効率のトレードオフを持つ縫合を生成でき、トレーニング時間を大幅に短縮し、トレーニング可能なパラメータを少なくして直接SN-Net適応をはるかに上回っていることが示された。さらに,LLaMA ファミリーから LLM を縫合し,様々なサイズのチャットボットを縫合することで,ESTA フレームワークの柔軟性とスケーラビリティを実証する。ソースコードはhttps://github.com/ziplab/Stitched_LLaMAで入手できる。

関連論文リスト

ReStNet: A Reusable & Stitchable Network for Dynamic Adaptation on IoT Devices [16.762206782460296]
ReStNetは、2つの事前訓練されたモデルを縫合することで、ハイブリッドネットワークを動的に構築する。実行時に柔軟な精度と効率のトレードオフを実現すると同時に、トレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2025-06-08T16:14:37Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文参考訳（メタデータ） (2024-11-25T19:08:38Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文参考訳（メタデータ） (2024-02-19T11:02:05Z)
Building Variable-sized Models via Learngene Pool [39.99697115082106]
近年,Stitchable Neural Networks (SN-Net) が提案されている。 SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-12-10T03:46:01Z)
TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文参考訳（メタデータ） (2023-10-02T16:45:19Z)
One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文参考訳（メタデータ） (2023-07-10T06:44:47Z)
Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。 SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。 ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文参考訳（メタデータ） (2023-02-13T18:37:37Z)
Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文参考訳（メタデータ） (2023-01-27T06:49:47Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。