論文の概要: DiffLoRA: Differential Low-Rank Adapters for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.23588v1
- Date: Thu, 31 Jul 2025 14:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.917583
- Title: DiffLoRA: Differential Low-Rank Adapters for Large Language Models
- Title(参考訳): DiffLoRA: 大規模言語モデルのための差分低ランクアダプタ
- Authors: Alexandre Misrahi, Nadezhda Chirkova, Maxime Louis, Vassilina Nikoulina,
- Abstract要約: 本稿では,差分アテンション機構のパラメータ効率を考慮したDiffLoRAを提案する。
我々はDiffLoRAを、一般的なベンチマーク、多ショットインコンテキスト学習、RAG、長期コンテキストテストなど、幅広いNLPタスクで評価する。
- 参考スコア(独自算出の注目度): 59.58987161199141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differential Transformer has recently been proposed to improve performance in Transformer models by canceling out noise through a denoiser attention mechanism. In this work, we introduce DiffLoRA, a parameter-efficient adaptation of the differential attention mechanism, with low-rank adapters on both positive and negative attention terms. This approach retains the efficiency of LoRA while aiming to benefit from the performance gains of differential attention. We evaluate DiffLoRA across a broad range of NLP tasks, including general benchmarks, many-shot in-context learning, RAG, and long-context tests. We observe that, although DiffLoRA falls short of other parameter-efficient fine-tuning methods in most evaluation tasks, it shows interesting results in certain domains (+11 pts on LoRA for HumanEval). We analyze the attention patterns post-finetuning to identify the reasons for this behavior.
- Abstract(参考訳): ディファレンシャルトランスフォーマーは, ノイズをキャンセリングすることで, 変圧器モデルの性能向上を図っている。
本稿では,差分アテンション機構のパラメータ効率を考慮したDiffLoRAを提案する。
このアプローチは、差分注意によるパフォーマンス向上の恩恵を受けながら、LoRAの効率を保っている。
我々はDiffLoRAを、一般的なベンチマーク、多ショットインコンテキスト学習、RAG、長期コンテキストテストなど、幅広いNLPタスクで評価する。
DiffLoRAは、多くの評価タスクにおいて他のパラメータ効率のよい微調整手法に劣るが、特定の領域(HumanEvalのLoRAに+11 pts)で興味深い結果を示す。
我々は、ファインタニング後の注意パターンを分析し、この行動の理由を特定する。
関連論文リスト
- SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。
まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。
第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文 参考訳(メタデータ) (2024-03-24T15:09:55Z) - LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-25T07:09:10Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying [6.172790376076545]
低ランク適応(LoRA)のパラメータ効率を高めるために、ウェイトタイリングと選択的トレーニングを活用する新しいパラダイムであるTied-LoRAを導入する。
本稿では,パラメータトレーニングと凍結,およびウェイトタイリングを併用して,パラメータの最適トレードオフとトレーニング可能なパラメータの数を推定する。
論文 参考訳(メタデータ) (2023-11-16T05:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。