論文の概要: $D^2LoRA$: Data-Driven LoRA Initialization for Low Resource Tasks
- arxiv url: http://arxiv.org/abs/2503.18089v1
- Date: Sun, 23 Mar 2025 14:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:24.812507
- Title: $D^2LoRA$: Data-Driven LoRA Initialization for Low Resource Tasks
- Title(参考訳): D^2LoRA$:低リソースタスクのためのデータ駆動型LoRA初期化
- Authors: Javad SeraJ, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti,
- Abstract要約: LoRA法を用いてタスク特化学習のためのポストトレーニング手法の解析を行う。
次に、LoRAメトリクスを初期化するためのデータ駆動アプローチである$D2LoRA$を紹介します。
実験によると、$D2LoRA$はGSM8Kベンチマークを1%改善し、タイトル生成タスクにおけるROUGEスコアを2ポイント改善した。
- 参考スコア(独自算出の注目度): 2.283090308443312
- License:
- Abstract: Tuning large language models is essential for optimizing their performance across diverse applications, particularly in scenarios with limited data availability. Tuning large language models in scarce data scenarios is crucial, particularly given that the convergence speed of the LoRA method is lower than that of full fine-tuning. In this paper, we present an analysis of post-training methods including Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Odds Ratio Preference Optimization (ORPO) within the context of task-specific learning using the LoRA method. Next we introduce $D^2LoRA$, a data-driven approach for initializing LoRA metrics that enhances training efficiency, especially in limited-data settings. Our experiments compare $D^2LoRA$ with vanilla LoRA in terms of performance and catastrophic forgetting under extremely data-constrained conditions. The results demonstrate that $D^2LoRA$ achieves a 1% improvement GSM8K benchmark and a 2-point improvement in ROUGE score in title generation tasks. $D^2LoRA$ facilitates the adaptation of LLMs to multiple tasks even when task-specific data is scarce, thereby reducing training expenses and offering data cost.
- Abstract(参考訳): 大規模言語モデルのチューニングは、さまざまなアプリケーション、特にデータ可用性に制限のあるシナリオにおいて、パフォーマンスを最適化するために不可欠である。
特にLoRA法の収束速度が完全な微調整よりも低いことを考えると,データシナリオの少ない大規模言語モデルのチューニングは極めて重要である。
本稿では、LoRA法を用いてタスク固有学習の文脈において、教師付きファインチューニング(SFT)、直接選好最適化(DPO)、Odds Ratio Preference Optimization(ORPO)などのポストトレーニング手法の分析を行う。
次に、LoRAメトリクスを初期化するためのデータ駆動アプローチであるD^2LoRA$を紹介します。
実験では, 極度のデータ制約条件下では, D^2LoRA$ とバニラ LoRA を比較した。
その結果、$D^2LoRA$は、GSM8Kベンチマークを1%改善し、タイトル生成タスクにおけるROUGEスコアを2ポイント改善した。
D^2LoRA$は、タスク固有のデータが不足している場合でも、複数のタスクへのLLMの適応を容易にするため、トレーニングコストを削減し、データコストを提供する。
関連論文リスト
- Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - IterIS: Iterative Inference-Solving Alignment for LoRA Merging [14.263218227928729]
低ランク適応(LoRA)は、特定の下流タスクのために様々な領域にまたがる大きなモデルを微調整するために広く使われている。
LoRAマージは、データのプライバシを維持しながら複数のLoRAを統一アダプタに結合することで、効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-21T19:04:02Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution [28.589498108609202]
Low-Rank Adaptation (LoRA) は、ウェイト行列の差分パラメータ予算要件を無視したバイパスフレームワークに依存している。
DoRAは、高ランクのLoRA層を構造化シングルランクコンポーネントに分解し、パラメータ予算の動的プルーニングを可能にする。
実験結果から,LORAやフルモデルファインチューニングと比較して,DoRAの競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T17:02:27Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。