論文の概要: Efficient Monte Carlo Tree Search via On-the-Fly State-Conditioned Action Abstraction
- arxiv url: http://arxiv.org/abs/2406.00614v1
- Date: Sun, 2 Jun 2024 04:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 04:16:01.236174
- Title: Efficient Monte Carlo Tree Search via On-the-Fly State-Conditioned Action Abstraction
- Title(参考訳): On-the-Fly State-Conditioned Action Abstractionによる効率的なモンテカルロ木探索
- Authors: Yunhyeok Kwak, Inwoo Hwang, Dooyoung Kim, Sanghack Lee, Byoung-Tak Zhang,
- Abstract要約: 状態とサブアクション間の構成構造に基づくアクション抽象化を提案する。
提案手法は,現在状態の遷移に関連するサブアクションをキャプチャする補助ネットワークを用いて,潜時ダイナミクスモデルを学習する。
- 参考スコア(独自算出の注目度): 27.53460927687747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monte Carlo Tree Search (MCTS) has showcased its efficacy across a broad spectrum of decision-making problems. However, its performance often degrades under vast combinatorial action space, especially where an action is composed of multiple sub-actions. In this work, we propose an action abstraction based on the compositional structure between a state and sub-actions for improving the efficiency of MCTS under a factored action space. Our method learns a latent dynamics model with an auxiliary network that captures sub-actions relevant to the transition on the current state, which we call state-conditioned action abstraction. Notably, it infers such compositional relationships from high-dimensional observations without the known environment model. During the tree traversal, our method constructs the state-conditioned action abstraction for each node on-the-fly, reducing the search space by discarding the exploration of redundant sub-actions. Experimental results demonstrate the superior sample efficiency of our method compared to vanilla MuZero, which suffers from expansive action space.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は幅広い意思決定問題に対して有効性を示した。
しかし、その性能は、特にアクションが複数のサブアクションで構成されている場合において、大きな組合せアクション空間の下で劣化することが多い。
本研究では,状態とサブアクション間の構成構造に基づく動作抽象化を提案し,MCTSの効率性を向上させる。
提案手法は,状態条件付き動作抽象化と呼ばれる,状態遷移に関連するサブアクションをキャプチャする補助ネットワークを用いて,潜時ダイナミクスモデルを学習する。
特に、既知の環境モデルなしで高次元観測からそのような構成関係を推測する。
ツリートラバーサルの間,本手法は各ノードに対する状態条件付き動作抽象化を構築し,冗長なサブアクションの探索を廃止して探索空間を縮小する。
実験の結果,バニラ・ムゼロに比べて試料効率が良好であることが確認された。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Adaptive Discretization using Voronoi Trees for Continuous POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と、作用空間の適応的な離散化と、楽観的な最適化を組み合わせて、高次元連続作用空間を効率的にサンプリングする。
ADVTは、最先端の手法と比較して、高次元の連続的な作用空間よりもかなり良くスケールする。
論文 参考訳(メタデータ) (2023-02-21T04:47:34Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Hierarchical Compositional Representations for Few-shot Action
Recognition [51.288829293306335]
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。
複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。
また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
論文 参考訳(メタデータ) (2022-08-19T16:16:59Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Modeling Multi-Label Action Dependencies for Temporal Action
Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2021-03-04T13:37:28Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Improved POMDP Tree Search Planning with Prioritized Action Branching [33.94599291823342]
本稿では,PA-POMCPOWとよばれる手法を提案する。
実験により、PA-POMCPOWは、大きな離散的な作用空間を持つ問題において、既存の最先端の解法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-07T18:33:57Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。