論文の概要: Reinforced Efficient Reasoning via Semantically Diverse Exploration
- arxiv url: http://arxiv.org/abs/2601.05053v1
- Date: Thu, 08 Jan 2026 15:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.266561
- Title: Reinforced Efficient Reasoning via Semantically Diverse Exploration
- Title(参考訳): Semantically Diverse Explorationによる強化高効率推論
- Authors: Ziqi Zhao, Zhaochun Ren, Jiahong Zou, Liu Yang, Zhiwei Xu, Xuri Ge, Zhumin Chen, Xinyu Ma, Daiting Shi, Shuaiqiang Wang, Dawei Yin, Xin Xin,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
- 参考スコア(独自算出の注目度): 73.41112984160992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has proven effective in enhancing the reasoning of large language models (LLMs). Monte Carlo Tree Search (MCTS)-based extensions improve upon vanilla RLVR (e.g., GRPO) by providing tree-based reasoning rollouts that enable fine-grained and segment-level credit assignment. However, existing methods still suffer from limited exploration diversity and inefficient reasoning. To address the above challenges, we propose reinforced efficient reasoning via semantically diverse explorations, i.e., ROSE, for LLMs. To encourage more diverse reasoning exploration, our method incorporates a semantic-entropy-based branching strategy and an $\varepsilon$-exploration mechanism. The former operates on already sampled reasoning rollouts to capture semantic uncertainty and select branching points with high semantic divergence to generate new successive reasoning paths, whereas the latter stochastically initiates reasoning rollouts from the root, preventing the search process from becoming overly local. To improve efficiency, we design a length-aware segment-level advantage estimator that rewards concise and correct reasoning while penalizing unnecessarily long reasoning chains. Extensive experiments on various mathematical reasoning benchmarks with Qwen and Llama models validate the effectiveness and efficiency of ROSE. Codes are available at https://github.com/ZiqiZhao1/ROSE-rl.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明されている。
Monte Carlo Tree Search (MCTS)ベースの拡張は、細粒度とセグメントレベルのクレジット割り当てを可能にするツリーベースの推論ロールアウトを提供することで、バニラRLVR(例えばGRPO)を改善する。
しかし、既存の手法は探索の多様性と非効率な推論に悩まされている。
以上の課題に対処するために,LLMに対する意味論的に多様な探索,すなわちROSEによる効率的な推論を提案する。
より多様な推論探索を促進するため,本手法は意味エントロピーに基づく分岐戦略と$\varepsilon$-exploration機構を組み込んだ。
前者は、意味的不確実性を捉えるために既にサンプリングされた推論ロールアウトを実行し、意味的分岐性の高い分岐点を選択して、新しい連続した推論パスを生成し、後者は、ルートからの推論ロールアウトを確率的に開始し、探索プロセスが過度に局所化するのを防ぐ。
効率を向上させるために,不必要に長い推論連鎖をペナルティ化しながら,簡潔かつ正確な推論を報いる長さ認識セグメントレベルの優位性推定器を設計する。
Qwen と Llama のモデルを用いた様々な数学的推論ベンチマークの大規模な実験により、ROSE の有効性と効率が検証された。
コードはhttps://github.com/ZiqiZhao1/ROSE-rlで公開されている。
関連論文リスト
- LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Directional Attractors in LLM Reasoning: How Similarity Retrieval Steers Iterative Summarization Based Reasoning [0.0]
InftyThink with Cross-Chain Memoryは、以前成功した推論パターンの埋め込みベースのセマンティックキャッシュで反復推論を強化する拡張である。
実験により、意味補題検索は、不均一なドメインを含むテストにおいて、障害モードを露呈しながら、構造化ドメインの精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-22T00:26:54Z) - ReJump: A Tree-Jump Representation for Analyzing and Improving LLM Reasoning [29.544265034647434]
ReJumpは、中間的な問題解決ステップの木のノードへの訪問順序として推論トレースを表す。
我々は,2つのタスクに対して最先端のLarge Language Model (LRMs) を評価し,類似した精度のモデルが明確な推論行動を示すことを発見した。
学習戦略が推論をどう形成するかをより深く理解するために,ReJumpを用いて蒸留LRMを教師と比較し,CoTが推進するLLMとLRMを比較し,推論の事例数や強化学習が推論行動にどう影響するかを検討する。
論文 参考訳(メタデータ) (2025-11-30T10:39:53Z) - Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards [33.42935710088259]
MERCI(Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards)を導入する。
MERCIは、より豊かで多様な思考の連鎖を促進し、強力なベースラインよりも性能を著しく向上させ、より優れたソリューションを見つけるために、ローカルルーチンから逃れるのに役立ちます。
論文 参考訳(メタデータ) (2025-10-18T18:57:26Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。
私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文 参考訳(メタデータ) (2025-02-04T22:08:20Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。