論文の概要: Transformer Based Planning in the Observation Space with Applications to Trick Taking Card Games
- arxiv url: http://arxiv.org/abs/2404.13150v1
- Date: Fri, 19 Apr 2024 19:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 20:08:39.506058
- Title: Transformer Based Planning in the Observation Space with Applications to Trick Taking Card Games
- Title(参考訳): 変圧器による観測空間の計画とカードゲームへの取り組み
- Authors: Douglas Rebstock, Christopher Solinas, Nathan R. Sturtevant, Michael Buro,
- Abstract要約: 我々は、GO-MCTS(Generative Observation Monte Carlo Tree Search)を提案する。
GO-MCTSは観察空間内を探索し、エージェントの観察のみに依存するモデルを用いて探索を進める。
GO-MCTSの有効性は、Hearts、Skat、The Crew: The Quest for Planet Nineなどの不完全な情報のゲームで実証されている。
- 参考スコア(独自算出の注目度): 14.864985236886314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional search algorithms have issues when applied to games of imperfect information where the number of possible underlying states and trajectories are very large. This challenge is particularly evident in trick-taking card games. While state sampling techniques such as Perfect Information Monte Carlo (PIMC) search has shown success in these contexts, they still have major limitations. We present Generative Observation Monte Carlo Tree Search (GO-MCTS), which utilizes MCTS on observation sequences generated by a game specific model. This method performs the search within the observation space and advances the search using a model that depends solely on the agent's observations. Additionally, we demonstrate that transformers are well-suited as the generative model in this context, and we demonstrate a process for iteratively training the transformer via population-based self-play. The efficacy of GO-MCTS is demonstrated in various games of imperfect information, such as Hearts, Skat, and "The Crew: The Quest for Planet Nine," with promising results.
- Abstract(参考訳): 従来の探索アルゴリズムは、潜在的な状態と軌道の数が非常に大きい不完全な情報のゲームに適用する場合に問題がある。
この課題は特にトリックテイクカードゲームで顕著である。
Perfect Information Monte Carlo (PIMC) 探索のような状態サンプリング技術はこれらの文脈で成功したが、それでも大きな制限がある。
本稿では,ゲーム固有モデルにより生成された観測シーケンスにMCTSを利用するGO-MCTS(Generative Observation Monte Carlo Tree Search)を提案する。
本手法は,観測空間内で探索を行い,エージェントの観測のみに依存するモデルを用いて探索を進める。
さらに, この文脈では, トランスフォーマーが生成モデルとして適していることを示すとともに, 個体群をベースとしたセルフプレイにより, トランスフォーマーを反復的に訓練するプロセスを示す。
GO-MCTSの有効性は、Hearts、Skat、"The Crew: The Quest for Planet Nine"といった不完全な情報の様々なゲームで実証され、有望な結果が得られる。
関連論文リスト
- Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization [18.25487451605638]
状態占有度を正則化した政策最適化に基づく木探索アルゴリズムを導出し,それをボリュームMCTSと呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
論文 参考訳(メタデータ) (2024-07-07T22:58:52Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z) - Generalize a Small Pre-trained Model to Arbitrarily Large TSP Instances [55.64521598173897]
本稿では,旅行セールスマン問題(TSP)のヒートマップ構築に繰り返し使用可能な,小規模モデルのトレーニングを試みる。
ヒートマップは強化学習アプローチ(モンテカルロツリーサーチ)に供給され、高品質のソリューションの検索を案内します。
実験結果によると、この新しいアプローチは、既存の機械学習ベースのTSPアルゴリズムを明らかに上回る。
論文 参考訳(メタデータ) (2020-12-19T11:06:30Z) - Monte Carlo Tree Search for a single target search game on a 2-D lattice [0.0]
このプロジェクトは、AIプレイヤーが2次元格子内で静止目標を探索するゲームを想像する。
動物捕食行動のモデルであるレヴィ飛行探索(Levi Flight Search)と比較した。
論文 参考訳(メタデータ) (2020-11-29T01:07:45Z) - Playing Carcassonne with Monte Carlo Tree Search [0.0]
我々は,モンテカルロ木探索 (MCTS) とラピッドアクション値推定 (MCTS-RAVE) をカーカッソンヌのゲームで使用することを検討した。
MCTSをベースとした手法とStar2.5アルゴリズムの長所を比較し,カーカッソンヌのゲームにおける競争結果が得られたことを報告した。
論文 参考訳(メタデータ) (2020-09-27T22:35:53Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z) - Competing in a Complex Hidden Role Game with Information Set Monte Carlo
Tree Search [0.0]
Information Set Monte Carlo Tree Search (ISMCTS) のアルゴリズムは、不完全な情報ゲームにおいてモンテカルロ法を用いて以前のアルゴリズムより優れている。
本論文は,従来の隠蔽ロール機構とカードデッキのランダム性を組み合わせたソーシャル推論ボードゲームであるシークレットヒトラーに適用する。
論文 参考訳(メタデータ) (2020-05-14T17:21:10Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。