論文の概要: Hybrid-LoRA: Bridging Full Fine-Tuning and Low-Rank Adaptation for Post-Training
- arxiv url: http://arxiv.org/abs/2605.18822v1
- Date: Tue, 12 May 2026 15:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.361022
- Title: Hybrid-LoRA: Bridging Full Fine-Tuning and Low-Rank Adaptation for Post-Training
- Title(参考訳): Hybrid-LoRA: ポストトレーニングのためのフル微調整と低ランク適応
- Authors: Chengqian Zhang, Wei Zhu, Kyumin Lee,
- Abstract要約: 提案するHybrid-LoRAは,モジュールのサブセットにフル微調整を選択的に適用する,効率的なポストトレーニングフレームワークである。
実験の結果、Hybrid-LoRAは10%のフル微調整モジュール予算下での完全な微調整性能と密に一致していることがわかった。
- 参考スコア(独自算出の注目度): 5.67092968426461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has become essential for adapting large language models (LLMs) to complex downstream behaviors, including instruction following, preference alignment, and multi-step reasoning. Reinforcement learning with verifiable rewards (RLVR) has recently emerged as a particularly effective post-training paradigm for improving reasoning capabilities, with critic-free algorithms such as GRPO and GSPO enabling scalable optimization. However, RLVR post-training with full fine-tuning (FFT) requires substantial GPU memory and incurs high training costs. Although parameter-efficient fine-tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), effectively reduce computational costs, they often suffer from a noticeable performance gap compared to full fine-tuning in post-training for complex reasoning tasks. In this paper, we propose Hybrid-LoRA, an efficient hybrid post-training framework that selectively applies full fine-tuning to a small subset of modules less suited to low-rank adaptation, while adapting the remaining components with LoRA. We introduce a novel Hybrid-LoRA Score to rank candidate modules according to their sensitivity to low-rank adaptation under a fixed parameter budget. Experiments show that Hybrid-LoRA closely matches full fine-tuning performance under a 10% full fine-tuning module budget, with the remaining candidate modules adapted by LoRA, consistently outperforming four state-of-the-art PEFT post-training baselines, achieving improvements of up to 5.65% and on average 4.36% over the best baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)を命令追従、選好アライメント、多段階推論など複雑な下流動作に適応させるためには、ポストトレーニングが不可欠になっている。
検証可能な報酬付き強化学習(RLVR)は、最近、GRPOやGSPOのような批判のないアルゴリズムによって、推論能力を改善するための特に効果的なポストトレーニングパラダイムとして登場した。
しかし、フル微調整(FFT)によるRLVRポストトレーニングでは、相当なGPUメモリが必要で、高いトレーニングコストがかかる。
Low-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整(PEFT)手法は、計算コストを効果的に削減するが、複雑な推論タスクに対する後処理の完全な微調整に比べて、顕著な性能差に悩まされることが多い。
本稿では,低ランク適応に適さない少数のモジュールに完全微調整を選択的に適用し,残りのコンポーネントをLoRAで適応する,効率的なハイブリッドポストトレーニングフレームワークであるHybrid-LoRAを提案する。
固定パラメータ予算下での低ランク適応に対する感度に応じて、候補モジュールをランク付けする新しいハイブリット-ロラスコアを導入する。
実験の結果、Hybrid-LoRAは10%の細調整モジュール予算下での完全な微調整性能と、LoRAに適合した残りの候補モジュールとの密接な一致を示し、4つの最先端PEFTポストトレーニングベースラインを一貫して上回り、最高ベースラインに対して5.65%、平均4.36%の改善を達成した。
関連論文リスト
- Strategic Over-Parameterization for Generalizable Low-Rank Adaptation [14.867641913391779]
大規模言語モデルへの完全な微調整による下流タスクへの適応は、計算とメモリの要求のため、ますます現実的ではない。
LoRA-Overは単純な原則に基づくフレームワークで、トレーニング中に最適化の風景を豊かにし、推論時に豊かにする。
LLaMA 2-7B と LLaMA 3.1-8B を用いた言語理解 (GLUE, T5-Base), 対話 (MT-Bench), 算術的推論 (GSM8K), コード生成 (HumanEval) に基づく LoRA-Over の評価を行った。
論文 参考訳(メタデータ) (2026-05-15T12:26:17Z) - Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation [85.89510825889168]
効率的な事前学習のための新しい低ランクシステムであるLoRA-Preを紹介する。
LoRA-Pre オンライン線形学習器内のコンパクトな低ランク部分空間に運動量行列を分解する。
Llama アーキテクチャファミリーのモデルを事前学習することで,LoRA-Preの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2026-02-27T18:57:06Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution [28.589498108609202]
Low-Rank Adaptation (LoRA) は、ウェイト行列の差分パラメータ予算要件を無視したバイパスフレームワークに依存している。
DoRAは、高ランクのLoRA層を構造化シングルランクコンポーネントに分解し、パラメータ予算の動的プルーニングを可能にする。
実験結果から,LORAやフルモデルファインチューニングと比較して,DoRAの競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T17:02:27Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。