論文の概要: Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey
- arxiv url: http://arxiv.org/abs/2510.09988v1
- Date: Sat, 11 Oct 2025 03:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.724268
- Title: Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey
- Title(参考訳): LLM推論のための木探索アルゴリズムの統一とリワード設計:サーベイ
- Authors: Jiaqi Wei, Xiang Zhang, Yuejin Yang, Wenxuan Huang, Juntai Cao, Sheng Xu, Xiang Zhuang, Zhangyang Gao, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Chenyu You, Wanli Ouyang, Siqi Sun,
- Abstract要約: 線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 92.71325249013535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deliberative tree search is a cornerstone of modern Large Language Model (LLM) research, driving the pivot from brute-force scaling toward algorithmic efficiency. This single paradigm unifies two critical frontiers: \textbf{Test-Time Scaling (TTS)}, which deploys on-demand computation to solve hard problems, and \textbf{Self-Improvement}, which uses search-generated data to durably enhance model parameters. However, this burgeoning field is fragmented and lacks a common formalism, particularly concerning the ambiguous role of the reward signal -- is it a transient heuristic or a durable learning target? This paper resolves this ambiguity by introducing a unified framework that deconstructs search algorithms into three core components: the \emph{Search Mechanism}, \emph{Reward Formulation}, and \emph{Transition Function}. We establish a formal distinction between transient \textbf{Search Guidance} for TTS and durable \textbf{Parametric Reward Modeling} for Self-Improvement. Building on this formalism, we introduce a component-centric taxonomy, synthesize the state-of-the-art, and chart a research roadmap toward more systematic progress in creating autonomous, self-improving agents.
- Abstract(参考訳): デリバティブ・ツリー・サーチ(Deliberative tree search)は、現代の大規模言語モデル(LLM)研究の基盤であり、ブルートフォースのスケーリングからアルゴリズム効率への転換を推進している。
この単一のパラダイムは、2つの重要なフロンティアを統一する: \textbf{Test-Time Scaling (TTS) — 難しい問題を解決するためにオンデマンド計算をデプロイする。
しかし、この波動場は断片化されており、特に報酬信号のあいまいな役割に関して、共通の形式主義を欠いている。
本稿では,探索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを導入することにより,この曖昧さを解消する。
本稿では, TTS における一過性 \textbf{Search Guidance} と自己改善のための耐久性 \textbf{Parametric Reward Modeling} とを形式的に区別する。
このフォーマリズムに基づいて、我々は、コンポーネント中心の分類を導入し、最先端の技術を合成し、自律的で自己改善的なエージェントを作成するためのより体系的な進歩に向けた研究ロードマップをチャート化する。
関連論文リスト
- Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - A Simple and Effective Framework for Symmetric Consistent Indexing in Large-Scale Dense Retrieval [11.72564658353791]
大規模情報検索システムでは,高効率・競争精度のため,高密度検索が業界標準となっている。
広く採用されているデュアルトウワー符号化アーキテクチャは、主に表現空間のミスアライメントと検索インデックスの不整合という、固有の課題を導入している。
本稿では2つの相乗的モジュールからなるシンプルで効果的なSCIフレームワークを提案する。
提案手法の有効性は,公開データセットと実世界のeコマースデータセットにまたがる結果によって検証され,理論的に保証される。
論文 参考訳(メタデータ) (2025-12-15T08:11:24Z) - Memory-Amortized Inference: A Topological Unification of Search, Closure, and Structure [6.0044467881527614]
単一の幾何学基板の位相遷移として学習と記憶を統一する形式的フレームワークであるtextbfMemory-Amortized Inference (MAI) を提案する。
我々は,高複雑さ探索を低複雑さ検索に変換することによって認知が機能することを示す。
この枠組みは、遅い思考(推論)から速い思考(直観)の出現に関する厳密な説明を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:28:24Z) - AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines [0.0]
大規模言語モデル(LLMs)は例外的な流行を示すが、それらからより強力な推論能力を引き出す努力は続けられている。
本稿では,LLM推論と最適化の体系的枠組みを推し進める。
論文 参考訳(メタデータ) (2025-11-12T05:52:55Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。
R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。
MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文 参考訳(メタデータ) (2025-07-08T00:41:12Z) - Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-05-20T07:04:01Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving [11.596474985695679]
我々は、完全な数学的モデリングプロセスをキャプチャする包括的ラベルを付したStructuredORデータセットをリリースする。
本稿では,強化学習をツリー・オブ・シント構造に統合するアルゴリズムであるBPP-Searchを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:05:53Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。