論文の概要: Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2506.05713v1
- Date: Fri, 06 Jun 2025 03:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.308807
- Title: Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation
- Title(参考訳): 集結するが、今はそうではない - ローランド適応を向上するための進歩的戦略
- Authors: Zhan Zhuang, Xiequn Wang, Wei Li, Yulong Zhang, Qiushi Huang, Shuhao Chen, Xuehao Wang, Yanbin Wei, Yuhe Nie, Kede Ma, Yu Zhang, Ying Wei,
- Abstract要約: 低ランク適応(LoRA)は,大規模基盤モデルに適応するためのパラメータ効率の高い微調整手法として登場している。
微調整の過程でアダプタのアクティベーション確率を徐々に高めるプログレッシブトレーニング戦略であるCoToプルーニングを提案する。
- 参考スコア(独自算出の注目度): 21.137278840000366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) has emerged as a leading parameter-efficient fine-tuning technique for adapting large foundation models, yet it often locks adapters into suboptimal minima near their initialization. This hampers model generalization and limits downstream operators such as adapter merging and pruning. Here, we propose CoTo, a progressive training strategy that gradually increases adapters' activation probability over the course of fine-tuning. By stochastically deactivating adapters, CoTo encourages more balanced optimization and broader exploration of the loss landscape. We provide a theoretical analysis showing that CoTo promotes layer-wise dropout stability and linear mode connectivity, and we adopt a cooperative-game approach to quantify each adapter's marginal contribution. Extensive experiments demonstrate that CoTo consistently boosts single-task performance, enhances multi-task merging accuracy, improves pruning robustness, and reduces training overhead, all while remaining compatible with diverse LoRA variants. Code is available at https://github.com/zwebzone/coto.
- Abstract(参考訳): 低ランク適応(LoRA)は、大規模な基礎モデルに適応するためのパラメータ効率の優れた微調整手法として登場しているが、初期化付近でアダプタを最適下限のミニマにロックすることが多い。
このハッパーモデルは一般化され、アダプタマージやプルーニングのような下流演算子を制限する。
本稿では,微調整の過程において,アダプタのアクティベーション確率を徐々に向上させるプログレッシブトレーニング戦略であるCoToを提案する。
アダプターを確率的に非活性化させることで、CoToはよりバランスの取れた最適化と損失景観のより広い探索を奨励する。
我々は,CoToが階層的にドロップアウト安定性とリニアモード接続を促進することを示し,各アダプタの限界寄与を定量化するための協調ゲームアプローチを採用する。
大規模な実験では、CoToはシングルタスクのパフォーマンスを継続的に向上し、マルチタスクのマージ精度を向上し、プルーニングロバスト性を改善し、トレーニングオーバーヘッドを低減するとともに、さまざまなLoRA亜種との互換性を維持している。
コードはhttps://github.com/zwebzone/coto.comで入手できる。
関連論文リスト
- DeLoRA: Decoupling Angles and Strength in Low-rank Adaptation [44.99833362998488]
Decoupled Low-rank Adaptation (DeLoRA)は学習可能な低ランク行列を正規化しスケールする新しい微調整法である。
DeLoRAは競合するPEFT法の性能に適合し,強靭性を示す。
論文 参考訳(メタデータ) (2025-03-23T22:00:56Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Towards Optimal Adapter Placement for Efficient Transfer Learning [73.1149084352343]
PETLは、トレーニング済みモデルを新しい下流タスクに適用し、微調整されたパラメータの数を最小化することを目的としている。
PETLの一般的なアプローチであるアダプタは、低ランクのプロジェクションを組み込むことで、既存のネットワークにさらなる容量を注入する。
本稿では,アダプタの配置と性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-21T10:37:17Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Conditional Adapters: Parameter-efficient Transfer Learning with Fast
Inference [53.65845680932835]
Conditional Adapter (CoDA) はパラメータ効率の変換学習手法であり、推論効率も向上する。
様々な言語、ビジョン、音声タスクにおいて、CoDAは2倍から8倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2023-04-11T03:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。