論文の概要: Subgoal-Guided Policy Heuristic Search with Learned Subgoals
- arxiv url: http://arxiv.org/abs/2506.07255v1
- Date: Sun, 08 Jun 2025 18:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.093485
- Title: Subgoal-Guided Policy Heuristic Search with Learned Subgoals
- Title(参考訳): 学習したサブゴールを用いたサブゴール誘導型政策ヒューリスティック検索
- Authors: Jake Tuero, Michael Buro, Levi H. S. Lelis,
- Abstract要約: ポリシーツリーサーチ(英: Policy tree search)は、ツリーサーチアルゴリズムの一種で、サーチを導くためにポリシーを使用する。
本稿では,ポリシーツリー探索アルゴリズムのサブゴール型ポリシーを学習するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 15.570621284198015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy tree search is a family of tree search algorithms that use a policy to guide the search. These algorithms provide guarantees on the number of expansions required to solve a given problem that are based on the quality of the policy. While these algorithms have shown promising results, the process in which they are trained requires complete solution trajectories to train the policy. Search trajectories are obtained during a trial-and-error search process. When the training problem instances are hard, learning can be prohibitively costly, especially when starting from a randomly initialized policy. As a result, search samples are wasted in failed attempts to solve these hard instances. This paper introduces a novel method for learning subgoal-based policies for policy tree search algorithms. The subgoals and policies conditioned on subgoals are learned from the trees that the search expands while attempting to solve problems, including the search trees of failed attempts. We empirically show that our policy formulation and training method improve the sample efficiency of learning a policy and heuristic function in this online setting.
- Abstract(参考訳): ポリシーツリーサーチ(英: Policy tree search)は、ツリーサーチアルゴリズムの一種で、サーチを導くためにポリシーを使用する。
これらのアルゴリズムは、ポリシーの質に基づいて与えられた問題を解決するのに必要な拡張数を保証する。
これらのアルゴリズムは有望な結果を示しているが、それらが訓練されるプロセスは、ポリシーを訓練するために完全な解軌跡を必要とする。
探索軌跡は、試行錯誤探索プロセス中に得られる。
トレーニング問題インスタンスが難しい場合、特にランダムに初期化ポリシから始める場合、学習は違法にコストがかかる可能性がある。
その結果、検索サンプルはこれらの難題を解決するために失敗した試みで無駄にされる。
本稿では,ポリシーツリー探索アルゴリズムのサブゴール型ポリシーを学習するための新しい手法を提案する。
サブゴールに条件付けされたサブゴールとポリシーは、探索が失敗した試みの探索木を含む問題の解決を試みながら拡大する木から学習される。
このオンライン環境では,政策の定式化と訓練により,政策とヒューリスティックな機能の学習のサンプル効率が向上することが実証的に示されている。
関連論文リスト
- LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Hybrid Search for Efficient Planning with Completeness Guarantees [63.02803974708516]
本稿では,離散的な行動空間における完全性を実現するために,部分ゴール探索法を効果的に拡張する手法を提案する。
このソリューションは、高レベルの探索の実践的効率と低レベルの探索の完全性という、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-10-19T15:16:43Z) - Learning Open Domain Multi-hop Search Using Reinforcement Learning [20.078330789576256]
我々は、オープンドメイン内のエンティティ間の関係のマルチホップパスの探索方法を学ぶために、自動エージェントを教える。
本手法をアクター・クリティカルな強化学習アルゴリズムに実装し,英語ウィキペディアのサブセットから抽出した探索問題のデータセット上で評価する。
論文 参考訳(メタデータ) (2022-05-30T17:44:19Z) - ExPoSe: Combining State-Based Exploration with Gradient-Based Online
Search [14.90561531943247]
木に基づくオンライン検索アルゴリズムは、軌道を反復的にシミュレートし、木構造で表される一連の状態のQ値情報を更新する。
あるいは、ポリシー勾配に基づくオンライン検索アルゴリズムは、シミュレーションされた軌跡から得られた情報をポリシーのパラメータに直接更新する。
この2つの手法の長所を組み合わせ,有効活用して検索性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-02-03T08:39:25Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Exploiting Learned Policies in Focal Search [0.49723239539321284]
政策学習を有界-準最適探索アルゴリズムに統合する方法を示す。
提案手法は3つのベンチマーク領域を対象とし,15-puzzleでは150万のサンプルを用いて学習したニューラルネットワークを用いて解析を行った。
本稿では,emphDiscrepancy Focal Searchにおいて,対応する経路が最適経路の接頭辞である確率の近似を最大化するノードを拡大し,実行時および解の質の観点から最もよい結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-21T13:50:40Z) - Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2021-04-10T13:52:27Z) - Policy-Guided Heuristic Search with Guarantees [31.323430201941378]
Policy-guided Heuristic Search (PHS) は、関数とポリシーの両方を利用する新しい検索アルゴリズムである。
PHS は A*, Weighted A*, Greedy Best-First Search, LevinTS, PUCT と, 解決された問題数と検索時間の点で比較できる。
論文 参考訳(メタデータ) (2021-03-21T22:30:57Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。