論文の概要: Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
- arxiv url: http://arxiv.org/abs/2508.09726v1
- Date: Wed, 13 Aug 2025 11:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.873113
- Title: Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
- Title(参考訳): 簡潔推論のためのグループフィルタポリシー最適化
- Authors: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos,
- Abstract要約: グループフィルタポリシー最適化は、トレーニング中に問題ごとの大きなグループをサンプリングすることで、この長さの爆発を抑制する。
GFPOはGRPOの長さのインフレーションを46-71%削減し、STEMとコーディングベンチマークに挑戦する。
Adaptive Difficulty GFPOは、リアルタイムの難易度推定に基づいて、より厳しい問題により多くのトレーニングリソースを割り当てる。
- 参考スコア(独自算出の注目度): 7.260825775935882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.
- Abstract(参考訳): 検証可能な報酬を持つ強化学習で訓練された大規模言語モデルは、精度を高めるために、長さのインフレーション応答長の精度を交換する傾向がある。
より長い答えは難しい問題に対して保証されるかもしれませんが、多くのトークンは単に"満杯"なのです。
GFPO(Group Filtered Policy Optimization)は,(1)応答長と(2)トークン効率:トークン当たりの報酬比の2つの主要な指標に基づいて,トレーニング中の問題ごとの大きなグループをサンプリングし,トレーニング中の反応をフィルタリングすることで,この長さの爆発を抑制する。
トレーニング時により多くのサンプルをサンプリングすることで、推論時間の短縮をモデルに教えます。
Phi-4-resoningモデルでは、GFPOはGRPOの長さのインフレーションを46-71%削減し、STEMとコーディングベンチマーク(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)で精度を維持した。
トークン当たりの報酬の最適化はさらに、長さインフレーションの削減を71-85%に増やす。
また、リアルタイムの難易度推定に基づいて、より複雑な問題に動的により多くのトレーニングリソースを割り当て、特に難解な問題に対して、計算効率と精度のバランスを改善するAdaptive Difficulty GFPOを提案する。
GFPOは、トレーニングタイムの増大がテストタイムの削減に直接変換されることを実証している。
関連論文リスト
- Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning [42.82825782517565]
ALPによるDeepScaleR-1.5Bのトレーニングは、パフォーマンスを著しく低下させることなく、平均トークン使用量を50%削減する。
固定予算と均一なペナルティ基準に対して、ALPは、簡単なプロンプトで計算をカットし、保存されたトークンを難しいものに再配置することで、予算の削減をよりインテリジェントに再分配する。
論文 参考訳(メタデータ) (2025-06-05T17:17:05Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。