論文の概要: RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.21733v1
- Date: Fri, 21 Nov 2025 09:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.185253
- Title: RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models
- Title(参考訳): RoSA:大規模言語モデルにおけるRoPE対応選択適応によるパラメータ効率向上
- Authors: Dayan Pan, Jingyuan Wang, Yilong Zhou, Jiawei Cheng, Pengyue Jia, Xiangyu Zhao,
- Abstract要約: タスク固有の適応には微調整された大きな言語モデルが必要であるが、計算的に禁止されている。
トレーニング可能なパラメータをよりターゲット的で効果的な方法で割り当てる新しいPEFTフレームワークであるRoPE対応選択適応(RoSA)を提案する。
RoSAはRoPE対応のアテンションエンハンスメント(RoAE)モジュールと、LayerNormのノルムに基づいて最も重要なレイヤを適応的に識別し更新する動的レイヤ選択(DLS)戦略を備えている。
- 参考スコア(独自算出の注目度): 23.726452130486496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models is essential for task-specific adaptation, yet it remains computationally prohibitive. Parameter-Efficient Fine-Tuning (PEFT) methods have emerged as a solution, but current approaches typically ignore the distinct roles of model components and the heterogeneous importance across layers, thereby limiting adaptation efficiency. Motivated by the observation that Rotary Position Embeddings (RoPE) induce critical activations in the low-frequency dimensions of attention states, we propose RoPE-aware Selective Adaptation (RoSA), a novel PEFT framework that allocates trainable parameters in a more targeted and effective manner. RoSA comprises a RoPE-aware Attention Enhancement (RoAE) module, which selectively enhances the low-frequency components of RoPE-influenced attention states, and a Dynamic Layer Selection (DLS) strategy that adaptively identifies and updates the most critical layers based on LayerNorm gradient norms. By combining dimension-wise enhancement with layer-wise adaptation, RoSA achieves more targeted and efficient fine-tuning. Extensive experiments on fifteen commonsense and arithmetic benchmarks demonstrate that RoSA outperforms existing mainstream PEFT methods under comparable trainable parameters. The code is available to ease reproducibility at https://github.com/Applied-Machine-Learning-Lab/RoSA.
- Abstract(参考訳): タスク固有の適応には微調整された大きな言語モデルが必要であるが、計算的に禁止されている。
パラメータ効率の良いファインチューニング(PEFT)法が解法として登場したが、現在のアプローチではモデルコンポーネントの異なる役割と層間における不均一な重要性を無視し、適応効率を制限するのが一般的である。
ロータリー位置埋め込み(RoPE)が注目状態の低周波次元において重要なアクティベーションを誘導する様子を観察した結果,より標的的かつ効果的にトレーニング可能なパラメータを割り当てる新しいPEFTフレームワークであるRoPE-Aware Selective Adaptation(RoSA)を提案する。
RoSAは、RoPEの影響のある注意状態の低周波成分を選択的に強化するRoPE対応注意強化(RoAE)モジュールと、LayerNormの勾配基準に基づいて最も重要なレイヤを適応的に識別し更新する動的レイヤ選択(DLS)戦略を備える。
次元ワイドエンハンスメントと層ワイドアダプションを組み合わせることで、RoSAはよりターゲット的で効率的な微調整を実現する。
15のコモンセンスと算術ベンチマークに関する大規模な実験は、RoSAが既存の主流PEFTメソッドを同等のトレーニング可能なパラメータで上回ることを示した。
コードはhttps://github.com/Applied-Machine-Learning-Lab/RoSAで再現性を簡単にするために提供されている。
関連論文リスト
- DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks [47.58150560549918]
重み分解低ランク適応(DoRA)は,バニラ低ランク適応(LoRA)法の学習能力と訓練安定性の両方を改善することが示されている。
そこで本研究では,DoRAのトレーニングを安定化し,サンプル効率を向上させるため,新しいDoRAの派生型であるDoRANを提案する。
論文 参考訳(メタデータ) (2025-10-05T19:27:48Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。