論文の概要: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets
- arxiv url: http://arxiv.org/abs/2508.14094v1
- Date: Fri, 15 Aug 2025 01:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.182311
- Title: Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets
- Title(参考訳): アノテーション予算下でのGRPOポストトレーニングの最大化
- Authors: Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye,
- Abstract要約: 最も難しい例のトレーニングではパフォーマンスが最大47%向上し、簡単な例のトレーニングでは最小となる。
これらの知見は、予算制約後トレーニングの実践的ガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting high-quality training examples for language model fine-tuning is expensive, with practical budgets limiting the amount of data that can be procured. We investigate a critical question for resource-constrained alignment: under a fixed acquisition budget, should practitioners prioritize examples that are easy, medium, hard, or of random difficulty? We study Group Relative Policy Optimization (GRPO) fine-tuning across different model sizes and families, comparing four subset selection policies chosen from the same unlabeled pool using base-model difficulty estimates obtained via multi-sample evaluation. Our experiments reveal that training on the hardest examples yields the largest performance gains, up to 47%, while training on easy examples yield the smallest gains. Analysis reveals that this effect arises from harder examples providing more learnable opportunities during GRPO training. These findings provide practical guidance for budget-constrained post-training: prioritizing hard examples yields substantial performance gains on reasoning tasks when using GRPO.
- Abstract(参考訳): 言語モデルの微調整のための高品質なトレーニング例の収集には費用がかかる。
固定的な買収予算の下では、実践者は簡単、中堅、ランダムな困難さの例を優先すべきだろうか?
モデルサイズと家族の異なるグループ相対政策最適化(GRPO)を詳細に検討し、マルチサンプル評価により得られたベースモデル難易度推定値を用いて、同じラベル付きプールから選択された4つのサブセット選択ポリシーを比較した。
実験の結果,最も難しい例のトレーニングでは最大47%,簡単な例のトレーニングでは最小の成果が得られた。
解析によると、この効果はGRPOトレーニング中により学習しやすい機会を提供する難しい例から生じる。
これらの結果から, 予算制約後訓練の実践的ガイダンスが得られ, ハードサンプルの優先順位付けは, GRPO を用いた場合の推論作業において, かなりの性能向上をもたらすことがわかった。
関連論文リスト
- Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - Principled Data Selection for Alignment: The Hidden Risks of Difficult Examples [38.79705507444374]
選好データは難易度が異なり、過度に難しい例が整列を妨げていることを示す。
Selective DPOを導入し、過度に難しい例をフィルタする。
この簡単な調整により、AlpacaEval 2ベンチマークでのアライメント性能は9-16%向上する。
論文 参考訳(メタデータ) (2025-02-11T17:01:11Z) - In-Context Learning on a Budget: A Case Study in Token Classification [16.664472010838132]
事前定義された予算内でアノテートするサンプルを選択するための様々な方法について検討する。
我々は,どの手法も他の手法よりも著しく優れており,ほぼ同様の結果が得られることを観察した。
比較的小さなアノテートされたサンプルプールは、トレーニングセット全体の使用に匹敵するパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2024-06-19T07:09:46Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。