Fugu-MT 論文翻訳(概要): Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets

論文の概要: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets

arxiv url: http://arxiv.org/abs/2508.14094v3
Date: Sat, 27 Sep 2025 00:19:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 17:47:09.161854
Title: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets
Title（参考訳）: アノテーション予算下でのGRPOポストトレーニングの最大化
Authors: Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye,
Abstract要約: 最も難しい例(ベースモデルが最も失敗する部分)の10%をトレーニングすると、劇的なパフォーマンスが最大47%向上する。ハードサンプルは、AIME2025ベンチマークで有意義な利得を達成しているのは、ハードトレーニングされたモデルのみである。
参考スコア（独自算出の注目度）: 0.09558392439655013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Collecting high-quality training examples for language model fine-tuning is expensive, with practical budgets limiting the amount of data that can be procured. We investigate whether example difficulty affects GRPO training effectiveness by comparing selection strategies (easy, medium, hard, random) across multiple models and reasoning tasks. Training on the hardest 10\% of examples (those where the base model fails most often) yields dramatic performance gains up to 47\%, while easy examples produce minimal improvements of 3-15\%. This occurs because GRPO requires outcome variance to generate learning signals; hard examples maintain mixed success/failure outcomes throughout training while easy examples quickly converge to consistent success, eliminating learning opportunities. Moreover, models trained on hard examples show superior out-of-distribution generalization, with only hard-trained models achieving meaningful gains on the AIME2025 benchmark. Our findings provide clear guidance: when budget-constrained, prioritize collecting and annotating examples where your base model struggles, as these drive nearly all learning value in GRPO fine-tuning
Abstract（参考訳）: 言語モデルの微調整のための高品質なトレーニング例の収集には費用がかかる。複数のモデルと推論タスクにおける選択戦略(容易性,中性,硬性,ランダム性)を比較することで,例題難易度がGRPOトレーニングの有効性に影響を及ぼすかどうかを検討した。最も難しい10倍の例(ベースモデルが最も失敗する部分)のトレーニングでは、劇的なパフォーマンス向上が47倍となり、簡単な例では3～15倍の最小限の改善が得られます。これは、GRPOが学習信号を生成するために結果のばらつきを必要とするためである。さらに、ハードサンプルでトレーニングされたモデルは、AIME2025ベンチマークで有意義なゲインを達成できるハードトレーニングされたモデルのみが、より優れたアウト・オブ・ディストリビューションの一般化を示す。 GRPOファインタニングにおける学習価値のほぼ全てを駆動するため、予算制約、優先順位付け、サンプルの収集、注釈付けを行う。

関連論文リスト

Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。 HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文参考訳（メタデータ） (2025-07-21T17:52:34Z)
Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文参考訳（メタデータ） (2025-02-16T21:57:35Z)
Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples [38.79705507444374]
選好データは難易度が異なり、過度に難しい例が整列を妨げていることを示す。 Selective DPOを導入し、過度に難しい例をフィルタする。この簡単な調整により、AlpacaEval 2ベンチマークでのアライメント性能は9-16%向上する。
論文参考訳（メタデータ） (2025-02-11T17:01:11Z)
In-Context Learning on a Budget: A Case Study in Token Classification [16.664472010838132]
事前定義された予算内でアノテートするサンプルを選択するための様々な方法について検討する。我々は,どの手法も他の手法よりも著しく優れており,ほぼ同様の結果が得られることを観察した。比較的小さなアノテートされたサンプルプールは、トレーニングセット全体の使用に匹敵するパフォーマンスを達成できることを実証する。
論文参考訳（メタデータ） (2024-06-19T07:09:46Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。 DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。 DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文参考訳（メタデータ） (2023-05-18T17:58:31Z)
What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文参考訳（メタデータ） (2021-01-17T23:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。