論文の概要: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets
- arxiv url: http://arxiv.org/abs/2508.14094v3
- Date: Sat, 27 Sep 2025 00:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.161854
- Title: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets
- Title(参考訳): アノテーション予算下でのGRPOポストトレーニングの最大化
- Authors: Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye,
- Abstract要約: 最も難しい例(ベースモデルが最も失敗する部分)の10%をトレーニングすると、劇的なパフォーマンスが最大47%向上する。
ハードサンプルは、AIME2025ベンチマークで有意義な利得を達成しているのは、ハードトレーニングされたモデルのみである。
- 参考スコア(独自算出の注目度): 0.09558392439655013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting high-quality training examples for language model fine-tuning is expensive, with practical budgets limiting the amount of data that can be procured. We investigate whether example difficulty affects GRPO training effectiveness by comparing selection strategies (easy, medium, hard, random) across multiple models and reasoning tasks. Training on the hardest 10\% of examples (those where the base model fails most often) yields dramatic performance gains up to 47\%, while easy examples produce minimal improvements of 3-15\%. This occurs because GRPO requires outcome variance to generate learning signals; hard examples maintain mixed success/failure outcomes throughout training while easy examples quickly converge to consistent success, eliminating learning opportunities. Moreover, models trained on hard examples show superior out-of-distribution generalization, with only hard-trained models achieving meaningful gains on the AIME2025 benchmark. Our findings provide clear guidance: when budget-constrained, prioritize collecting and annotating examples where your base model struggles, as these drive nearly all learning value in GRPO fine-tuning
- Abstract(参考訳): 言語モデルの微調整のための高品質なトレーニング例の収集には費用がかかる。
複数のモデルと推論タスクにおける選択戦略(容易性,中性,硬性,ランダム性)を比較することで,例題難易度がGRPOトレーニングの有効性に影響を及ぼすかどうかを検討した。
最も難しい10倍の例(ベースモデルが最も失敗する部分)のトレーニングでは、劇的なパフォーマンス向上が47倍となり、簡単な例では3~15倍の最小限の改善が得られます。
これは、GRPOが学習信号を生成するために結果のばらつきを必要とするためである。
さらに、ハードサンプルでトレーニングされたモデルは、AIME2025ベンチマークで有意義なゲインを達成できるハードトレーニングされたモデルのみが、より優れたアウト・オブ・ディストリビューションの一般化を示す。
GRPOファインタニングにおける学習価値のほぼ全てを駆動するため、予算制約、優先順位付け、サンプルの収集、注釈付けを行う。
関連論文リスト
- Influence-driven Curriculum Learning for Pre-training on Limited Data [8.8896707993459]
本研究では,従来の人中心難易度尺度を,モデルトレーニング中に観察されたような難易度に対応する指標に置き換えた上で,カリキュラム学習が競争力を持つかどうかを検討する。
私たちのカリキュラムでトレーニングされたモデルは、ランダムにトレーニングされたモデルをベンチマークで10ポイント以上向上させることができる。
論文 参考訳(メタデータ) (2025-08-21T11:53:34Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples [38.79705507444374]
選好データは難易度が異なり、過度に難しい例が整列を妨げていることを示す。
Selective DPOを導入し、過度に難しい例をフィルタする。
この簡単な調整により、AlpacaEval 2ベンチマークでのアライメント性能は9-16%向上する。
論文 参考訳(メタデータ) (2025-02-11T17:01:11Z) - In-Context Learning on a Budget: A Case Study in Token Classification [16.664472010838132]
事前定義された予算内でアノテートするサンプルを選択するための様々な方法について検討する。
我々は,どの手法も他の手法よりも著しく優れており,ほぼ同様の結果が得られることを観察した。
比較的小さなアノテートされたサンプルプールは、トレーニングセット全体の使用に匹敵するパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2024-06-19T07:09:46Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - InfoAT: Improving Adversarial Training Using the Information Bottleneck
Principle [22.531976474053057]
対人訓練 (AT) は, 対人訓練に対する防御効果が良好である。
我々は,新しい効果的な対人訓練法(InfoAT)を提案する。
実験の結果,InfoATはいくつかの最先端手法と比較して,異なるデータセットやモデル間で最高のロバスト性を達成していることがわかった。
論文 参考訳(メタデータ) (2022-06-23T03:20:41Z) - Mining Minority-class Examples With Uncertainty Estimates [102.814407678425]
現実世界では、オブジェクトの発生頻度は自然にスキューされ、長い尾のクラス分布を形成する。
これらの課題を克服する効果的な、しかし簡単なアプローチを提案する。
我々のフレームワークは、抑制されたテールクラスのアクティベーションを強化し、その後、1クラスのデータ中心アプローチを使用して、テールクラスの例を効果的に識別する。
論文 参考訳(メタデータ) (2021-12-15T02:05:02Z) - On the Impact of Hard Adversarial Instances on Overfitting in Adversarial Training [70.82725772926949]
敵の訓練は、敵の攻撃に対してモデルを強固にするための一般的な方法である。
本研究では,この現象をトレーニングインスタンスの観点から検討する。
逆行訓練における一般化性能の低下は、ハード・逆行例に適合した結果であることを示す。
論文 参考訳(メタデータ) (2021-12-14T12:19:24Z) - Analyzing Dynamic Adversarial Training Data in the Limit [50.00850852546616]
動的逆データ収集(DADC)は、このような多様なトレーニングセットを生成するためのアプローチとして、約束を守る。
本研究は,NLIの20ラウンドを少数の前提項で収集する,長期DADCに関する最初の研究である。
DADCの例でトレーニングされたモデルでは、専門家が計算したテストセットのエラーが、非敵のデータでトレーニングされたモデルよりも26%少なくなります。
論文 参考訳(メタデータ) (2021-10-16T08:48:52Z) - When does loss-based prioritization fail? [18.982933391138268]
ノイズや破損したデータのあるシナリオでは,損失に基づく加速度法が劣化することを示す。
例題の難易度は、ノイズを他のタイプの難易度例から正しく分離する必要がある。
論文 参考訳(メタデータ) (2021-07-16T07:23:15Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。