論文の概要: Lookahead Pathology in Monte-Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2212.05208v1
- Date: Sat, 10 Dec 2022 05:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:41:35.563114
- Title: Lookahead Pathology in Monte-Carlo Tree Search
- Title(参考訳): モンテカルロ木探索におけるルックアヘッド病理
- Authors: Khoi P. N. Nguyen and Raghuram Ramanujan
- Abstract要約: 数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介した。
理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte-Carlo Tree Search (MCTS) is an adversarial search paradigm that first
found prominence with its success in the domain of computer Go. Early
theoretical work established the game-theoretic soundness and convergence
bounds for Upper Confidence bounds applied to Trees (UCT), the most popular
instantiation of MCTS; however, there remain notable gaps in our understanding
of how UCT behaves in practice. In this work, we address one such gap by
considering the question of whether UCT can exhibit lookahead pathology -- a
paradoxical phenomenon first observed in Minimax search where greater search
effort leads to worse decision-making. We introduce a novel family of synthetic
games that offer rich modeling possibilities while remaining amenable to
mathematical analysis. Our theoretical and experimental results suggest that
UCT is indeed susceptible to pathological behavior in a range of games drawn
from this family.
- Abstract(参考訳): Monte-Carlo Tree Search (MCTS) は、コンピュータ Go の領域で最初に成功した逆探索パラダイムである。
初期の理論的研究は、木(UCT)に適用されるゲーム理論の健全性と収束境界を確立したが、UCTが実際にどのように振る舞うかという我々の理解には大きなギャップが残っている。
そこで本研究では,uctが表向きの病理学を呈するかどうかを考察し,検索努力の増大が意思決定の悪化につながるミニマックス探索で最初に観察されたパラドックス現象について考察する。
数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介する。
理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。
関連論文リスト
- Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Learnability with PAC Semantics for Multi-agent Beliefs [38.88111785113001]
推論と帰納の緊張は、おそらく哲学、認知、人工知能といった分野において最も根本的な問題である。
Valiant氏は、学習の課題は推論と統合されるべきである、と認識した。
古典的な包含よりも弱いが、クエリに応答する強力なモデル理論のフレームワークを可能にする。
論文 参考訳(メタデータ) (2023-06-08T18:22:46Z) - Scale-Adaptive Balancing of Exploration and Exploitation in Classical
Planning [5.025654873456756]
我々は,MAB文献のより詳細な理論的理解が,既存の計画アルゴリズムの改善に役立つことを示す。
本稿では, UCB1-Normal bandit を用いた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案する。
論文 参考訳(メタデータ) (2023-05-16T22:46:37Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Probabilistic DAG Search [29.47649645431227]
探索空間の潜伏構造を利用して探索木間で情報を共有するための確率的フレームワークを開発する。
我々は、Tic-Tac-Toeの既存の非確率的代替品と特徴選択アプリケーションとを比較検討するアルゴリズムを実証的に見出した。
論文 参考訳(メタデータ) (2021-06-16T11:35:19Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Active Tree Search in Large POMDPs [0.0]
大規模POMDP(Active Tree Search)で計画する新しい手法を提案する。
これは、神経科学における主要な計画理論(活性推論)の規範的性格と生物学的リアリズムと、AIにおけるモンテカルロ法の拡張性を組み合わせたものである。
論文 参考訳(メタデータ) (2021-03-25T14:17:09Z) - Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。
我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。
我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文 参考訳(メタデータ) (2020-07-01T11:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。