Fugu-MT 論文翻訳(概要): Exploration-Driven Optimization for Test-Time Large Language Model Reasoning

論文の概要: Exploration-Driven Optimization for Test-Time Large Language Model Reasoning

arxiv url: http://arxiv.org/abs/2605.09853v1
Date: Mon, 11 May 2026 01:10:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.452995
Title: Exploration-Driven Optimization for Test-Time Large Language Model Reasoning
Title（参考訳）: テスト時間大言語モデル推論のための探索駆動最適化
Authors: Changhao Li, Yuchen Zhuang, Chenxiao Gao, Haotian Sun, Rushi Qiang, Chao Zhang, Bo Dai,
Abstract要約: 推論時間スケーリングと組み合わせたポストトレーニング手法は、大規模言語モデルの推論とアライメント能力を大幅に向上させる。しかし、基本的な緊張が発生する:推論時間法は比較的平坦な確率分布からの多様なサンプリングの恩恵を受ける一方、強化学習に基づくポストトレーニングは本質的にこれらの分布を鋭くする。本稿では,報酬バイアス方式の探索目標を反復的なポストトレーニングに拡張し,それらを標準のRL目標に統合する探索駆動最適化(EDO)を提案する。
参考スコア（独自算出の注目度）: 26.75453991463688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training techniques combined with inference-time scaling significantly enhance the reasoning and alignment capabilities of large language models (LLMs). However, a fundamental tension arises: inference-time methods benefit from diverse sampling from a relatively flattened probability distribution, whereas reinforcement learning (RL)-based post-training inherently sharpens these distributions. To address this, we propose Exploration-Driven Optimization (EDO), which extends reward-biasing style exploration objectives to iterative post-training and integrates them into standard RL objectives, encouraging greater diversity in sampled solutions while facilitating more effective inference-time computation. We incorporate EDO into iterative Direct Preference Optimization (iDPO) and Group Relative Policy Optimization (GRPO), resulting in two variants: ED-iDPO and ED-GRPO. Extensive experiments demonstrate that both ED-iDPO and ED-GRPO exhibit greater solution diversity and improved reasoning abilities, particularly when combined with test-time computation techniques like self-consistency. Across three in-distribution reasoning benchmarks, EDO achieves a 1.0-1.3\% improvement over the strongest baselines, and delivers an additional 1.5\% average gain on five out-of-distribution tasks. Beyond accuracy, EDO preserves model entropy and stabilizes RL training dynamics, highlighting its effectiveness in preventing over-optimization collapse. Taken together, these results establish EDO as a practical framework for balancing exploration and exploitation in LLM reasoning, especially in settings that rely on test-time scaling.
Abstract（参考訳）: 推論時間スケーリングと組み合わせたポストトレーニング手法は、大規模言語モデル(LLM)の推論とアライメント能力を大幅に向上させる。しかし、基本的な緊張が発生する:推論時間法は比較的平坦な確率分布からの多様なサンプリングの恩恵を受ける一方、強化学習(RL)に基づくポストトレーニングは本質的にこれらの分布を鋭くする。これを解決するために,探索駆動最適化(EDO,Exploration-Driven Optimization)を提案する。これは,報酬バイアス方式の探索目標を反復的なポストトレーニングに拡張し,それらを標準のRL目標に統合することで,より効率的な推論時間計算を容易にし,サンプルソリューションの多様性を向上する。我々は、ED-iDPO と ED-GRPO の2つの変種を、EDO を反復的直接選好最適化 (iDPO) とグループ相対政策最適化 (GRPO) に組み込んだ。 ED-iDPO と ED-GRPO はともに解の多様性が高く,推論能力も向上している。 3つの分散推論ベンチマークで、EDOは最強のベースラインよりも1.0-1.3\%改善し、5つのアウト・オブ・ディストリビューションタスクに対して1.5\%平均ゲインを提供する。精度を超えて、EDOはモデルエントロピーを保持し、RLトレーニングダイナミクスを安定化し、過度な最適化崩壊を防ぐ効果を強調している。まとめると、これらの結果は、特にテスト時間スケーリングに依存する設定において、LLM推論における探索と利用のバランスをとるための実践的なフレームワークとしてEDOを確立します。

論文の概要: Exploration-Driven Optimization for Test-Time Large Language Model Reasoning

関連論文リスト