論文の概要: Sample-efficient LLM Optimization with Reset Replay
- arxiv url: http://arxiv.org/abs/2508.06412v1
- Date: Fri, 08 Aug 2025 15:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.292827
- Title: Sample-efficient LLM Optimization with Reset Replay
- Title(参考訳): リセット再生によるサンプル効率のLLM最適化
- Authors: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian,
- Abstract要約: Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 13.739451157239756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in post-training Large Language Models (LLMs), particularly through Reinforcement Learning (RL) and preference optimization methods, are key drivers for enhancing their reasoning capabilities. However, these methods are often plagued by low sample efficiency and a susceptibility to primacy bias, where overfitting to initial experiences degrades policy quality and damages the learning process. To address these challenges, we introduce LLM optimization with Reset Replay (LoRR), a general and powerful plugin designed to enhance sample efficiency in any preference-based optimization framework. LoRR core mechanism enables training at a high replay number, maximizing the utility of each collected data batch. To counteract the risk of overfitting inherent in high-replay training, LoRR incorporates a periodic reset strategy with reusing initial data, which preserves network plasticity. Furthermore, it leverages a hybrid optimization objective, combining supervised fine-tuning (SFT) and preference-based losses to further bolster data exploitation. Our extensive experiments demonstrate that LoRR significantly boosts the performance of various preference optimization methods on both mathematical and general reasoning benchmarks. Notably, an iterative DPO approach augmented with LoRR achieves comparable performance on challenging math tasks, outperforming some complex and computationally intensive RL-based algorithms. These findings highlight that LoRR offers a practical, sample-efficient, and highly effective paradigm for LLM finetuning, unlocking greater performance from limited data.
- Abstract(参考訳): 後学習型大規模言語モデル(LLM)の最近の進歩、特に強化学習(RL)と選好最適化手法は、推論能力を高める上で重要な要因である。
しかしながら、これらの手法は、しばしばサンプル効率の低下と、初期経験への過度な適合が政策品質を低下させ学習過程を損なうという、プライマリシーバイアスへの感受性に悩まされる。
これらの課題に対処するため,任意の選好ベースの最適化フレームワークにおいて,サンプル効率を高めるために設計された汎用的で強力なプラグインであるリセット・リプレイ(LoRR)を用いてLLM最適化を導入する。
LoRRコアメカニズムは高い再生数でのトレーニングを可能にし、収集された各データバッチの有用性を最大化する。
ハイプレイトレーニングに固有のオーバーフィットのリスクに対処するため、LoRRは、ネットワークの可塑性を保った初期データを再利用する定期的なリセット戦略を取り入れている。
さらに、教師付き微調整(SFT)と嗜好に基づく損失を組み合わせることで、データのさらなる活用を促進するというハイブリッド最適化の目標も活用している。
我々の広範な実験により、LoRRは数学的および一般的な推論ベンチマークにおいて、様々な選好最適化手法の性能を著しく向上させることが示された。
特に、LoRRで拡張された反復DPOアプローチは、複雑な計算集約的なRLベースのアルゴリズムよりも優れ、挑戦的な数学タスクにおいて同等のパフォーマンスを達成する。
これらの結果から,LORRはLLMファインタニングのための実用的で,サンプル効率が高く,かつ高効率なパラダイムであり,限られたデータからより優れた性能を実現することが示唆された。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Filtering Learning Histories Enhances In-Context Reinforcement Learning [12.697029805927398]
トランスフォーマーモデル(TM)は、テキスト内強化学習能力に優れていた。
我々は、ICRLを強化するために、単純で効果的な学習履歴フィルタリング(LHF)を提案する。
LHFは、データセット前処理によるソースの最適化を回避するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-05-21T06:00:41Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。