論文の概要: Adapting Beyond the Depth Limit: Counter Strategies in Large Imperfect Information Games
- arxiv url: http://arxiv.org/abs/2501.10464v3
- Date: Sun, 09 Feb 2025 16:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:24:30.151720
- Title: Adapting Beyond the Depth Limit: Counter Strategies in Large Imperfect Information Games
- Title(参考訳): 深さ制限を超えて適応する - 大規模な不完全な情報ゲームにおけるカウンター戦略
- Authors: David Milec, Vojtěch Kovařík, Viliam Lisý,
- Abstract要約: オンラインプレイ中に、合理的な対戦相手に頑健なまま、既知のサブリレーショナルな対戦相手に適応する問題について検討する。
既存の手法では、奥行き制限を超えた合理的なプレーを前提としており、相手の行動の極めて限られた部分しか適応できない。
本稿では,行列値状態と呼ばれる戦略ポルフォリオ手法を用いて,深度限定探索を行うアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.56754610152086
- License:
- Abstract: We study the problem of adapting to a known sub-rational opponent during online play while remaining robust to rational opponents. We focus on large imperfect-information (zero-sum) games, which makes it impossible to inspect the whole game tree at once and necessitates the use of depth-limited search. However, all existing methods assume rational play beyond the depth-limit, which only allows them to adapt a very limited portion of the opponent's behaviour. We propose an algorithm Adapting Beyond Depth-limit (ABD) that uses a strategy-portfolio approach - which we refer to as matrix-valued states - for depth-limited search. This allows the algorithm to fully utilise all information about the opponent model, making it the first robust-adaptation method to be able to do so in large imperfect-information games. As an additional benefit, the use of matrix-valued states makes the algorithm simpler than traditional methods based on optimal value functions. Our experimental results in poker and battleship show that ABD yields more than a twofold increase in utility when facing opponents who make mistakes beyond the depth limit and also delivers significant improvements in utility and safety against randomly generated opponents.
- Abstract(参考訳): オンラインプレイ中に、合理的な対戦相手に頑健なまま、既知のサブリレーショナルな対戦相手に適応する問題について検討する。
我々は,大容量不完全情報(ゼロサム)ゲームに焦点を合わせ,一度にゲームツリー全体を検査することは不可能であり,深度制限探索を必要としない。
しかし、既存のすべての手法は、深さ制限を超えた合理的な遊びを前提としており、相手の行動の非常に限られた部分しか適応できない。
本稿では,行列値状態と呼ばれる戦略ポルフォリオ手法を用いて,深度制限付き探索のためのABD(Adapting Beyond Depth-Limit)を提案する。
これにより、アルゴリズムは敵モデルに関する全ての情報を完全に活用することができ、大規模な不完全な情報ゲームでそれを行うことのできる最初のロバスト適応法となる。
さらに、行列値状態を用いることで、アルゴリズムは最適な値関数に基づく従来の手法よりもシンプルになる。
ポーカーおよび戦艦における実験結果から,深度限界を超えるミスを犯した相手に対して,無作為に生成した相手に対する実用性と安全性を著しく向上させる場合,ABDは実用性が2倍以上に向上することが示された。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Complexity and Algorithms for Exploiting Quantal Opponents in Large
Two-Player Games [16.43565579998679]
伝統的なゲーム理論の解の概念は、完全に合理的なプレイヤーを前提としており、従って、従属的な相手を活用できる能力は限られている。
本稿では,通常のゲームや広角ゲームにおいて,量子的対戦相手に対する効果的で堅牢な戦略を計算するためのスケーラブルなアルゴリズムを解析し,提案することを目的とする。
論文 参考訳(メタデータ) (2020-09-30T09:14:56Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z) - Discovering Imperfectly Observable Adversarial Actions using Anomaly
Detection [0.24244694855867271]
異常検出は異常で不審な振る舞いを発見する方法である。
このようなゲームを解くためのアルゴリズムを2つ提案する。
実験により、両方のアルゴリズムが低特徴空間次元の場合に適用可能であることが示された。
論文 参考訳(メタデータ) (2020-04-22T15:31:53Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。