論文の概要: Lookahead Pathology in Monte-Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2212.05208v2
- Date: Fri, 7 Jun 2024 20:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 06:08:09.382491
- Title: Lookahead Pathology in Monte-Carlo Tree Search
- Title(参考訳): モンテカルロ樹探索における頭頂部病理
- Authors: Khoi P. N. Nguyen, Raghuram Ramanujan,
- Abstract要約: 数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介した。
理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。
- 参考スコア(独自算出の注目度): 0.7826806223782052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte-Carlo Tree Search (MCTS) is a search paradigm that first found prominence with its success in the domain of computer Go. Early theoretical work established the soundness and convergence bounds for Upper Confidence bounds applied to Trees (UCT), the most popular instantiation of MCTS; however, there remain notable gaps in our understanding of how UCT behaves in practice. In this work, we address one such gap by considering the question of whether UCT can exhibit lookahead pathology in adversarial settings -- a paradoxical phenomenon first observed in Minimax search where greater search effort leads to worse decision-making. We introduce a novel family of synthetic games that offer rich modeling possibilities while remaining amenable to mathematical analysis. Our theoretical and experimental results suggest that UCT is indeed susceptible to pathological behavior in a range of games drawn from this family.
- Abstract(参考訳): Monte-Carlo Tree Search (MCTS) はコンピュータ Go の領域で成功して初めて注目された検索パラダイムである。
初期の理論的研究は、MCTSの最も一般的なインスタンス化である木(UCT)に適用された上部信頼境界の健全性と収束境界を確立した。
本研究は,UCTが対向的な設定でルックアヘッドの病態を示すことができるかどうかという問題を考えることで,このようなギャップに対処するものである。
数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介した。
理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。
関連論文リスト
- Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。
帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。
本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。
第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文 参考訳(メタデータ) (2024-08-03T13:37:40Z) - Monte Carlo Tree Search with Boltzmann Exploration [16.06815496704043]
本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。
我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-11T13:25:35Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning [1.6574413179773757]
我々は,MAB文献のより詳細な理論的理解が,既存の計画アルゴリズムの改善に役立つことを示す。
本稿では, UCB1-Normal bandit を用いた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案する。
論文 参考訳(メタデータ) (2023-05-16T22:46:37Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Probabilistic DAG Search [29.47649645431227]
探索空間の潜伏構造を利用して探索木間で情報を共有するための確率的フレームワークを開発する。
我々は、Tic-Tac-Toeの既存の非確率的代替品と特徴選択アプリケーションとを比較検討するアルゴリズムを実証的に見出した。
論文 参考訳(メタデータ) (2021-06-16T11:35:19Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Active Inference Tree Search in Large POMDPs [0.0]
POMDPsにおける新しい計画手法--Active Inference Tree Search (AcT)について紹介する。
AcTは、神経科学(Active Inference)における主要な計画理論の規範的性格と生物学的リアリズムと、AIにおける木探索法のスケーラビリティを組み合わせたものである。
シミュレーションの結果、AcTはサンプリングベース手法に挑戦する二分木、適応探索を必要とする問題、そしてAcTが最先端のPOMDPソリューションを再現する大規模POMDP問題「RockSample」をうまくナビゲートしていることがわかった。
論文 参考訳(メタデータ) (2021-03-25T14:17:09Z) - Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。
我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。
我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文 参考訳(メタデータ) (2020-07-01T11:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。