論文の概要: HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.11225v1
- Date: Fri, 16 May 2025 13:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.069137
- Title: HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
- Title(参考訳): HAPO:ヒストリ-アウェア政策最適化を通して簡潔に推論する言語モデルを訓練する
- Authors: Chengyu Huang, Zhengxin Zhang, Claire Cardie,
- Abstract要約: 本稿では,歴史対応政策最適化(HAPO)について述べる。
HAPOは、この履歴状態に基づいて新しい長さ報酬関数を用いて、正しい解の発見を動機付けている。
実験の結果,HAPOはLLMの簡潔推論能力を効果的に誘導し,33~59%の精度低下と2~5%の精度低下を生じることがわかった。
- 参考スコア(独自算出の注目度): 17.844933477135523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While scaling the length of responses at test-time has been shown to markedly improve the reasoning abilities and performance of large language models (LLMs), it often results in verbose outputs and increases inference cost. Prior approaches for efficient test-time scaling, typically using universal budget constraints or query-level length optimization, do not leverage historical information from previous encounters with the same problem during training. We hypothesize that this limits their ability to progressively make solutions more concise over time. To address this, we present History-Aware Policy Optimization (HAPO), which keeps track of a history state (e.g., the minimum length over previously generated correct responses) for each problem. HAPO employs a novel length reward function based on this history state to incentivize the discovery of correct solutions that are more concise than those previously found. Crucially, this reward structure avoids overly penalizing shorter incorrect responses with the goal of facilitating exploration towards more efficient solutions. By combining this length reward with a correctness reward, HAPO jointly optimizes for correctness and efficiency. We use HAPO to train DeepSeek-R1-Distill-Qwen-1.5B, DeepScaleR-1.5B-Preview, and Qwen-2.5-1.5B-Instruct, and evaluate HAPO on several math benchmarks that span various difficulty levels. Experiment results demonstrate that HAPO effectively induces LLMs' concise reasoning abilities, producing length reductions of 33-59% with accuracy drops of only 2-5%.
- Abstract(参考訳): テスト時間における応答長のスケーリングは、大規模言語モデル(LLM)の推論能力と性能を著しく向上させることが示されているが、しばしば冗長な出力となり、推論コストが増大する。
効率的なテストタイムスケーリングのための以前のアプローチは、一般的に普遍的な予算制約やクエリレベルの長さ最適化を使用しており、トレーニング中に同じ問題に遭遇した過去の情報を活用していない。
このことは、ソリューションが時間とともにより簡潔になる能力を制限するという仮説を立てています。
この問題に対処するために、各問題に対する履歴状態(例えば、以前生成された正しい応答に対する最小長)をトラックする履歴認識ポリシー最適化(HAPO)を提案する。
HAPOは、この歴史状態に基づく新しい長さ報酬関数を用いて、以前発見されたものよりも簡潔な正しい解の発見を動機付けている。
重要なことに、この報酬構造は、より効率的なソリューションへの探索を促進することを目的として、短い誤った反応を過度に罰することを避ける。
この長さ報酬と補正報酬を組み合わせることで、HAPOは正確性と効率性を共同で最適化する。
HAPOを用いて、DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B-Preview、Qwen-2.5-1.5B-Instructをトレーニングし、様々な難易度にまたがるいくつかのベンチマークでHAPOを評価する。
実験の結果,HAPOはLLMの簡潔推論能力を効果的に誘導し,33~59%の精度低下と2~5%の精度低下を生じることがわかった。
関連論文リスト
- Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。
現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文 参考訳(メタデータ) (2025-03-10T17:40:43Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。