論文の概要: Prefix-Tuning+: Modernizing Prefix-Tuning by Decoupling the Prefix from Attention
- arxiv url: http://arxiv.org/abs/2506.13674v2
- Date: Tue, 17 Jun 2025 15:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 13:08:30.136124
- Title: Prefix-Tuning+: Modernizing Prefix-Tuning by Decoupling the Prefix from Attention
- Title(参考訳): Prefix-Tuning+: 注意からの Prefix の分離による Prefix-Tuning の近代化
- Authors: Haonan Wang, Brian Chen, Siquan Li, Xinhe Liang, Hwee Kuan Lee, Kenji Kawaguchi, Tianyang Hu,
- Abstract要約: 本稿では,Prefix-Tuningの原理を一般化した新しいアーキテクチャであるPrefix-Tuning+を紹介し,その欠点に対処する。
我々の実験は、様々なベンチマークでPrefix-Tuning+が既存のPrefix-Tuningメソッドより一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 29.805182634944536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) methods have become crucial for rapidly adapting large language models (LLMs) to downstream tasks. Prefix-Tuning, an early and effective PEFT technique, demonstrated the ability to achieve performance comparable to full fine-tuning with significantly reduced computational and memory overhead. However, despite its earlier success, its effectiveness in training modern state-of-the-art LLMs has been very limited. In this work, we demonstrate empirically that Prefix-Tuning underperforms on LLMs because of an inherent tradeoff between input and prefix significance within the attention head. This motivates us to introduce Prefix-Tuning+, a novel architecture that generalizes the principles of Prefix-Tuning while addressing its shortcomings by shifting the prefix module out of the attention head itself. We further provide an overview of our construction process to guide future users when constructing their own context-based methods. Our experiments show that, across a diverse set of benchmarks, Prefix-Tuning+ consistently outperforms existing Prefix-Tuning methods. Notably, it achieves performance on par with the widely adopted LoRA method on several general benchmarks, highlighting the potential modern extension of Prefix-Tuning approaches. Our findings suggest that by overcoming its inherent limitations, Prefix-Tuning can remain a competitive and relevant research direction in the landscape of parameter-efficient LLM adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)を下流タスクに迅速に適応させるためには,PEFT法が重要である。
早期かつ効果的なPEFT技術であるPrefix-Tuningは、計算とメモリのオーバーヘッドを大幅に削減したフル微調整に匹敵するパフォーマンスを実現する能力を示した。
しかし、その初期の成功にもかかわらず、現代のLLMを訓練する効果は非常に限られている。
本研究は,注意ヘッド内の入力と接頭辞の有意性の間に固有のトレードオフがあるため,プレフィックス・チューニングがLLMに過小評価されることを実証的に示す。
これは、プレフィックスチューニングの原則を一般化し、プレフィックスモジュールをアテンションヘッド自体から外すことで、その欠点に対処する新しいアーキテクチャであるPrefix-Tuning+を導入するためのモチベーションです。
さらに, コンテキストベースの手法を構築する際に, 将来のユーザをガイドするための構築プロセスの概要について述べる。
我々の実験は、様々なベンチマークでPrefix-Tuning+が既存のPrefix-Tuningメソッドより一貫して優れていることを示した。
特に、いくつかの一般的なベンチマークで広く採用されているLoRAメソッドと同等のパフォーマンスを実現し、Prefix-Tuningアプローチの現代的な拡張の可能性を強調している。
本研究は,本研究の限界を克服することで,パラメータ効率のLLM適応のランドスケープにおいて,Prefix-Tuningが競争力と関連する研究の方向性を保ち続けることを示唆している。
関連論文リスト
- Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models [26.484208658326857]
継続的な学習は、過去の知識を忘れることに抵抗しながら、データストリームにおける新しい概念を漸進的に獲得することを目的としている。
強力な事前学習モデル(PTM)の台頭に伴い、インクリメンタル学習システムのトレーニングへの関心が高まっている。
論文 参考訳(メタデータ) (2024-11-04T15:34:30Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting [10.559392015748989]
微調整性能を低下させることなく,我々の手法によって破滅的な忘れを克服できることを示す。
以上の結果から,Kronecker-factored approximation を用いることで,対角線よりも学習前の知識の保存性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-19T15:26:19Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。