論文の概要: Structure-Induced Information for Rerooting Levin Tree Search
- arxiv url: http://arxiv.org/abs/2605.30664v1
- Date: Thu, 28 May 2026 23:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.292962
- Title: Structure-Induced Information for Rerooting Levin Tree Search
- Title(参考訳): レビン木探索のための構造誘導情報
- Authors: Jake Tuero, Michael Buro, Laurent Orseau, Levi H. S. Lelis,
- Abstract要約: サブゴールに基づくポリシーツリー探索は複雑な単一エージェント問題に対して有効であるが、しばしば明示的なサブゴール生成に依存している。
本稿では,最近導入された$sqrttextLTS$アルゴリズムを用いて,学習したrerooter'を用いて,これらの制限を克服する。
- 参考スコア(独自算出の注目度): 15.135967459664734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subgoal-based policy tree search, which uses a policy to guide search, is effective for complex single-agent deterministic problems but often relies on explicit subgoal generation that can incur substantial overhead and hinders scalability. In this paper, we overcome these limitations by using a learned ``rerooter'' through the recently-introduced $\sqrt{\text{LTS}}$ algorithm. A rerooter implicitly decomposes the problem into soft subtasks. While previous work focused on the formal guarantees for given or handcrafted rerooters, in this work we propose three rerooter designs: (i) a clustering-based rerooter that exploits global state-space structure, (ii) a heuristic-based rerooter that leverages learned cost-to-go estimates, and (iii) a hybrid that combines both signals. Our framework avoids having to explicitly reconstruct and reason over generated subgoals, thereby enabling scalable allocation of search effort with significantly lower computational overhead. Empirically, our rerooting-based methods scale to complex environments where subgoal-based policy tree search fails, and achieve state-of-the-art online training efficiency on the domains tested.
- Abstract(参考訳): サブゴールをベースとしたポリシーツリー探索は、複雑な単一エージェント決定論的な問題に対して有効であるが、多くの場合、かなりのオーバーヘッドを発生させスケーラビリティを妨げうる明示的なサブゴール生成に依存している。
本稿では、最近導入された$\sqrt{\text{LTS}}$アルゴリズムを通じて、学習した ``rerooter'' を用いることで、これらの制限を克服する。
リルート器は、問題をソフトなサブタスクに暗黙的に分解する。
これまでの研究は、手作りのリルート設計の正式な保証に重点を置いていたが、本研究では、3つのリルート設計を提案する。
(i)グローバルな状態空間構造を利用するクラスタリングベースの再ルート器。
(二)学習したコスト・ツー・ゴー推定を利用したヒューリスティック・リルート装置、及び
(iii)両信号を組み合わせたハイブリッド。
我々のフレームワークは、生成したサブゴールを明示的に再構成し、推論することを避けるため、計算オーバーヘッドを大幅に低減した検索作業のスケーラブルなアロケーションを可能にする。
実証的な方法では、リルートベースの手法は、サブゴールベースのポリシーツリー探索が失敗する複雑な環境にスケールし、テスト対象のドメインに対する最先端のオンライントレーニング効率を達成する。
関連論文リスト
- TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T03:29:18Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。
私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文 参考訳(メタデータ) (2025-02-04T22:08:20Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Hierarchical Clustering via Local Search [0.0]
階層クラスタリングのための局所探索アルゴリズムを提案する。
任意の局所最適木は少なくとも$fracn-23sum_i jw(i,j)$の収益を保証し、そこでは$n$はオブジェクトの数で、$w: [n] times [n] mathbbR+$は関連する類似関数である。
論文 参考訳(メタデータ) (2024-05-24T23:46:24Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。