論文の概要: From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization
- arxiv url: http://arxiv.org/abs/2507.06573v1
- Date: Wed, 09 Jul 2025 06:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.490221
- Title: From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization
- Title(参考訳): データ中心からサンプル中心へ: プログレッシブ最適化によるLLM推論の強化
- Authors: Xinjie Chen, Minpeng Liao, Guoxin Chen, Chengxi Li, Biao Fu, Kai Fan, Xinggao Liu,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。
サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。
私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
- 参考スコア(独自算出の注目度): 7.531052649961168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has recently advanced the reasoning capabilities of large language models (LLMs). While prior work has emphasized algorithmic design, data curation, and reward shaping, we investigate RLVR from a sample-centric perspective and introduce LPPO (Learning-Progress and Prefix-guided Optimization), a framework of progressive optimization techniques. Our work addresses a critical question: how to best leverage a small set of trusted, high-quality demonstrations, rather than simply scaling up data volume. First, motivated by how hints aid human problem-solving, we propose prefix-guided sampling, an online data augmentation method that incorporates partial solution prefixes from expert demonstrations to guide the policy, particularly for challenging instances. Second, inspired by how humans focus on important questions aligned with their current capabilities, we introduce learning-progress weighting, a dynamic strategy that adjusts each training sample's influence based on model progression. We estimate sample-level learning progress via an exponential moving average of per-sample pass rates, promoting samples that foster learning and de-emphasizing stagnant ones. Experiments on mathematical-reasoning benchmarks demonstrate that our methods outperform strong baselines, yielding faster convergence and a higher performance ceiling.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。
先行研究では,アルゴリズム設計,データキュレーション,報酬形成が重視されてきたが,サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法であるLPPO(Learning-Progress and Prefix-guided Optimization)を導入する。
私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
まず、ヒントが人間の問題解決にどのように役立つかを動機として、専門家によるデモンストレーションから部分的なソリューションプレフィックスを組み込んだオンラインデータ拡張手法であるプレフィックス誘導サンプリングを提案する。
第二に、人間が現在の能力に合わせて重要な質問にどのように焦点を合わせるかに触発され、モデルの進行に基づいて各トレーニングサンプルの影響を調整するダイナミックな戦略であるラーニング・プログレス・重み付けを導入します。
本研究では,サンプル単位のパスレートの指数的な移動平均を用いて,サンプルレベルの学習進捗を推定し,学習を促進するサンプルの促進と,停滞したパスレートの非強調を行う。
数式推論ベンチマークの実験により,提案手法は強いベースラインを上回り,より高速な収束と高い性能天井が得られることが示された。
関連論文リスト
- Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection [38.35524024887503]
Prioritized cOncept learninG by Relative Error-driven Sample Selection (PROGRESS)を提案する。
PROGRESSはデータと計算効率のよいフレームワークで、視覚言語モデルで次に何を学習するかを動的に選択できる。
PROGRESSは、データや監督をはるかに少なくして、最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-06-01T17:05:35Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。
大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文 参考訳(メタデータ) (2025-01-24T20:39:38Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。