論文の概要: Consistent Opponent Modeling of Static Opponents in Imperfect-Information Games
- arxiv url: http://arxiv.org/abs/2508.17671v1
- Date: Mon, 25 Aug 2025 05:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.641142
- Title: Consistent Opponent Modeling of Static Opponents in Imperfect-Information Games
- Title(参考訳): 不完全情報ゲームにおける静的な対数の一貫した対数モデリング
- Authors: Sam Ganzfried,
- Abstract要約: 既存の対戦相手モデリング手法は、既知の先行分布から引き出された静的な相手に対しても、単純な望ましい性質を満足できないことを示す。
我々は,この特性を達成し,シーケンス形式ゲーム表現に基づく凸問題の解法により効率的に動作する新しいアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of agents in multi-agent environments is to maximize total reward against the opposing agents that are encountered. Following a game-theoretic solution concept, such as Nash equilibrium, may obtain a strong performance in some settings; however, such approaches fail to capitalize on historical and observed data from repeated interactions against our opponents. Opponent modeling algorithms integrate machine learning techniques to exploit suboptimal opponents utilizing available data; however, the effectiveness of such approaches in imperfect-information games to date is quite limited. We show that existing opponent modeling approaches fail to satisfy a simple desirable property even against static opponents drawn from a known prior distribution; namely, they do not guarantee that the model approaches the opponent's true strategy even in the limit as the number of game iterations approaches infinity. We develop a new algorithm that is able to achieve this property and runs efficiently by solving a convex minimization problem based on the sequence-form game representation using projected gradient descent. The algorithm is guaranteed to efficiently converge to the opponent's true strategy given observations from gameplay and possibly additional historical data if it is available.
- Abstract(参考訳): 多エージェント環境におけるエージェントの目標は、遭遇したエージェントに対する全報酬を最大化することである。
ナッシュ均衡のようなゲーム理論的な解の概念に従うと、いくつかの設定では強い性能が得られるが、そのようなアプローチは、我々の相手との繰り返しの相互作用から、歴史的および観測されたデータを活用することに失敗する。
対向モデリングアルゴリズムは、利用可能なデータを利用して最適でない相手を活用するために機械学習技術を統合するが、不完全情報ゲームにおけるそのようなアプローチの有効性は極めて限定的である。
既存の対戦相手モデルアプローチは、既知の事前分布から引き出された静的な相手に対しても、単純な望ましい性質を満足することができず、ゲームイテレーションの数が無限に近づく限り、そのモデルが相手の真の戦略に近づくことは保証されない。
我々は,この特性を達成し,凸最小化問題を投影勾配勾配を用いた列型ゲーム表現に基づいて解き,効率的に動作する新しいアルゴリズムを開発した。
このアルゴリズムは、ゲームプレイから観測された相手の真の戦略と、利用可能であれば追加の歴史的データに効率的に収束することが保証されている。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Unbalanced Optimal Transport: A Unified Framework for Object Detection [97.74382560746987]
不均衡最適輸送がオブジェクト検出に対する異なるアプローチをどのように統合するかを示す。
非平衡最適輸送を用いた物体検出モデルの訓練が最先端に到達可能であることを示す。
このアプローチはGPUの実装に適しており、大規模なモデルに有利であることが証明されている。
論文 参考訳(メタデータ) (2023-07-05T16:21:52Z) - Towards Optimal Randomized Strategies in Adversarial Example Game [13.287949447721115]
敵対的なサンプル攻撃に対するディープニューラルネットワークモデルの脆弱性は、多くの人工知能アプリケーションにおいて実践的な課題である。
確率分布空間上の新しい無限次元連続時間フローを用いて問題をモデル化するFRATと呼ばれるアルゴリズムを提案する。
我々は、FRATの連続時間制限がディフェンダーとアタッカーによって形成されたゼロサムゲームにおいて混合ナッシュ平衡に収束することを証明する。
論文 参考訳(メタデータ) (2023-06-29T07:29:23Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Optimal control of robust team stochastic games [5.425935258756356]
そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。
ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。
アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
論文 参考訳(メタデータ) (2021-05-16T10:42:09Z) - Automated Decision-based Adversarial Attacks [48.01183253407982]
我々は、実用的で挑戦的な意思決定ベースのブラックボックスの敵意設定を考える。
この設定では、攻撃者はターゲットモデルに問い合わせるだけで最終分類ラベルを取得できる。
意思決定に基づく攻撃アルゴリズムを自動的に発見する。
論文 参考訳(メタデータ) (2021-05-09T13:15:10Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。