論文の概要: Approximate exploitability: Learning a best response in large games
- arxiv url: http://arxiv.org/abs/2004.09677v5
- Date: Thu, 3 Nov 2022 21:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:02:36.215193
- Title: Approximate exploitability: Learning a best response in large games
- Title(参考訳): Approximate exploitability: 大規模ゲームで最高の反応を学ぶ
- Authors: Finbarr Timbers, Nolan Bard, Edward Lockhart, Marc Lanctot, Martin
Schmid, Neil Burch, Julian Schrittwieser, Thomas Hubert, Michael Bowling
- Abstract要約: 我々は,エージェントに対する最良の応答を学習するための,スケーラブルな検索ベース深層強化学習アルゴリズムISMCTS-BRを紹介する。
本手法は,複数のエージェントに対する2プレイヤーゼロサムゲームにおいて実演する。
- 参考スコア(独自算出の注目度): 31.066412349285994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have demonstrated that neural networks are vulnerable to
adversarial examples and subtle environment changes, both of which one can view
as a form of distribution shift. To humans, the resulting errors can look like
blunders, eroding trust in these agents. In prior games research, agent
evaluation often focused on the in-practice game outcomes. While valuable, such
evaluation typically fails to evaluate robustness to worst-case outcomes. Prior
research in computer poker has examined how to assess such worst-case
performance, both exactly and approximately. Unfortunately, exact computation
is infeasible with larger domains, and existing approximations rely on
poker-specific knowledge. We introduce ISMCTS-BR, a scalable search-based deep
reinforcement learning algorithm for learning a best response to an agent,
thereby approximating worst-case performance. We demonstrate the technique in
several two-player zero-sum games against a variety of agents, including
several AlphaZero-based agents.
- Abstract(参考訳): 研究者たちは、ニューラルネットワークが敵対的な例や微妙な環境変化に弱いことを実証した。
人間にとって、結果として生じるエラーは、これらのエージェントに対する信頼を損なうようなものだ。
先行ゲーム研究において、エージェント評価はしばしば実践的なゲーム結果に焦点を当てた。
価値はあるが、このような評価は通常、最悪の結果に対する堅牢性の評価に失敗する。
コンピュータポーカーにおける以前の研究は、この最悪のケースのパフォーマンスを正確に、そして概ね評価する方法を調査した。
残念ながら、正確な計算はより大きなドメインでは不可能であり、既存の近似はポーカー固有の知識に依存している。
本稿では,エージェントに対する最善の応答を学習するスケーラブルな検索型深層強化学習アルゴリズムismcts-brを提案する。
本手法は,AlphaZeroをベースとしたエージェントを含む各種エージェントに対して,複数の2プレーヤゼロサムゲームで実演する。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Contextual Search in the Presence of Adversarial Corruptions [33.28268414842846]
より高次元における二項探索の一般化である文脈探索について検討する。
これらのアルゴリズムは, 敵対的腐敗がない場合に, ほぼ最適に後悔することを示す。
我々の手法は学習理論、ゲーム理論、高次元幾何学、凸解析からインスピレーションを得ている。
論文 参考訳(メタデータ) (2020-02-26T17:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。