論文の概要: Exploration-Driven Optimization for Test-Time Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2605.09853v1
- Date: Mon, 11 May 2026 01:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.452995
- Title: Exploration-Driven Optimization for Test-Time Large Language Model Reasoning
- Title(参考訳): テスト時間大言語モデル推論のための探索駆動最適化
- Authors: Changhao Li, Yuchen Zhuang, Chenxiao Gao, Haotian Sun, Rushi Qiang, Chao Zhang, Bo Dai,
- Abstract要約: 推論時間スケーリングと組み合わせたポストトレーニング手法は、大規模言語モデルの推論とアライメント能力を大幅に向上させる。
しかし、基本的な緊張が発生する:推論時間法は比較的平坦な確率分布からの多様なサンプリングの恩恵を受ける一方、強化学習に基づくポストトレーニングは本質的にこれらの分布を鋭くする。
本稿では,報酬バイアス方式の探索目標を反復的なポストトレーニングに拡張し,それらを標準のRL目標に統合する探索駆動最適化(EDO)を提案する。
- 参考スコア(独自算出の注目度): 26.75453991463688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training techniques combined with inference-time scaling significantly enhance the reasoning and alignment capabilities of large language models (LLMs). However, a fundamental tension arises: inference-time methods benefit from diverse sampling from a relatively flattened probability distribution, whereas reinforcement learning (RL)-based post-training inherently sharpens these distributions. To address this, we propose Exploration-Driven Optimization (EDO), which extends reward-biasing style exploration objectives to iterative post-training and integrates them into standard RL objectives, encouraging greater diversity in sampled solutions while facilitating more effective inference-time computation. We incorporate EDO into iterative Direct Preference Optimization (iDPO) and Group Relative Policy Optimization (GRPO), resulting in two variants: ED-iDPO and ED-GRPO. Extensive experiments demonstrate that both ED-iDPO and ED-GRPO exhibit greater solution diversity and improved reasoning abilities, particularly when combined with test-time computation techniques like self-consistency. Across three in-distribution reasoning benchmarks, EDO achieves a 1.0-1.3\% improvement over the strongest baselines, and delivers an additional 1.5\% average gain on five out-of-distribution tasks. Beyond accuracy, EDO preserves model entropy and stabilizes RL training dynamics, highlighting its effectiveness in preventing over-optimization collapse. Taken together, these results establish EDO as a practical framework for balancing exploration and exploitation in LLM reasoning, especially in settings that rely on test-time scaling.
- Abstract(参考訳): 推論時間スケーリングと組み合わせたポストトレーニング手法は、大規模言語モデル(LLM)の推論とアライメント能力を大幅に向上させる。
しかし、基本的な緊張が発生する:推論時間法は比較的平坦な確率分布からの多様なサンプリングの恩恵を受ける一方、強化学習(RL)に基づくポストトレーニングは本質的にこれらの分布を鋭くする。
これを解決するために,探索駆動最適化(EDO,Exploration-Driven Optimization)を提案する。これは,報酬バイアス方式の探索目標を反復的なポストトレーニングに拡張し,それらを標準のRL目標に統合することで,より効率的な推論時間計算を容易にし,サンプルソリューションの多様性を向上する。
我々は、ED-iDPO と ED-GRPO の2つの変種を、EDO を反復的直接選好最適化 (iDPO) とグループ相対政策最適化 (GRPO) に組み込んだ。
ED-iDPO と ED-GRPO はともに解の多様性が高く,推論能力も向上している。
3つの分散推論ベンチマークで、EDOは最強のベースラインよりも1.0-1.3\%改善し、5つのアウト・オブ・ディストリビューションタスクに対して1.5\%平均ゲインを提供する。
精度を超えて、EDOはモデルエントロピーを保持し、RLトレーニングダイナミクスを安定化し、過度な最適化崩壊を防ぐ効果を強調している。
まとめると、これらの結果は、特にテスト時間スケーリングに依存する設定において、LLM推論における探索と利用のバランスをとるための実践的なフレームワークとしてEDOを確立します。
関連論文リスト
- Poly-EPO: Training Exploratory Reasoning Models [62.82992914206963]
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
論文 参考訳(メタデータ) (2026-04-19T22:54:19Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - On the Hidden Objective Biases of Group-based Reinforcement Learning [40.50223796302703]
グループベース強化学習法は,近年,大規模言語モデルのポストトレインに広く用いられている。
本稿では,GRPO スタイルの手法を統一的なサロゲート定式化の中で研究することによって理論的に解析する。
論文 参考訳(メタデータ) (2026-01-08T15:00:35Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [53.914481648817066]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。