論文の概要: Are AlphaZero-like Agents Robust to Adversarial Perturbations?
- arxiv url: http://arxiv.org/abs/2211.03769v1
- Date: Mon, 7 Nov 2022 18:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:26:56.526881
- Title: Are AlphaZero-like Agents Robust to Adversarial Perturbations?
- Title(参考訳): alphazeroライクなエージェントは敵対的摂動に対して堅牢か?
- Authors: Li-Cheng Lan, Huan Zhang, Ti-Rong Wu, Meng-Yu Tsai, I-Chen Wu, Cho-Jui
Hsieh
- Abstract要約: AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
- 参考スコア(独自算出の注目度): 73.13944217915089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of AlphaZero (AZ) has demonstrated that neural-network-based Go
AIs can surpass human performance by a large margin. Given that the state space
of Go is extremely large and a human player can play the game from any legal
state, we ask whether adversarial states exist for Go AIs that may lead them to
play surprisingly wrong actions. In this paper, we first extend the concept of
adversarial examples to the game of Go: we generate perturbed states that are
``semantically'' equivalent to the original state by adding meaningless moves
to the game, and an adversarial state is a perturbed state leading to an
undoubtedly inferior action that is obvious even for Go beginners. However,
searching the adversarial state is challenging due to the large, discrete, and
non-differentiable search space. To tackle this challenge, we develop the first
adversarial attack on Go AIs that can efficiently search for adversarial states
by strategically reducing the search space. This method can also be extended to
other board games such as NoGo. Experimentally, we show that the actions taken
by both Policy-Value neural network (PV-NN) and Monte Carlo tree search (MCTS)
can be misled by adding one or two meaningless stones; for example, on 58\% of
the AlphaGo Zero self-play games, our method can make the widely used KataGo
agent with 50 simulations of MCTS plays a losing action by adding two
meaningless stones. We additionally evaluated the adversarial examples found by
our algorithm with amateur human Go players and 90\% of examples indeed lead
the Go agent to play an obviously inferior action. Our code is available at
\url{https://PaperCode.cc/GoAttack}.
- Abstract(参考訳): AlphaZero(AZ)の成功は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
Goの国家空間が極めて大きく、人間のプレイヤーが法的状態からゲームをすることができることを考慮すれば、Go AIに対して敵国が存在するかどうかを問う。
本稿では,まず,goゲームに敵の例の概念を最初に拡張する。我々は,ゲームに意味のない動きを加えることによって,本来の状態と同値である‘semantically’となる摂動状態を生成し,その逆の状態を,go初心者にとっても明らかな劣った動作につながる摂動状態とする。
しかし、逆境状態の探索は、大きくて離散的で、非微分可能な探索空間のため困難である。
この課題に取り組むため,我々は,検索空間を戦略的に縮小することにより,効率的に敵国を探索できる,go aisに対する最初の敵対的攻撃を開発した。
この方法は、NoGoのような他のボードゲームにも拡張できる。
例えば,AlphaGo Zero の 58 % の自己プレイゲームでは,MCTS の 50 個のシミュレーションで広く使われている KataGo エージェントが,2 個の無意味なストーンを追加することで,その動作を損なうことができる。
さらに,このアルゴリズムで見いだされた敵の例をアマチュアの人間goプレーヤーで評価し,その90%はgoエージェントに明らかに劣るアクションをさせた。
私たちのコードは \url{https://PaperCode.cc/GoAttack} で利用可能です。
関連論文リスト
- Strategy Game-Playing with Size-Constrained State Abstraction [44.99833362998488]
戦略ゲームは人工知能(AI)にとって難しい問題である
主な課題の1つは、ゲームコンポーネントの多様さによる巨大な検索スペースである。
状態抽象化は、検索ベースのゲームAIに適用され、大幅なパフォーマンス向上をもたらした。
論文 参考訳(メタデータ) (2024-08-12T14:50:18Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Adversarial Policies Beat Superhuman Go AIs [54.15639517188804]
我々は,現在最先端の囲碁AIシステムであるKataGoを,敵の政策を訓練することによって攻撃する。
敵は囲碁を上手に弾くことで勝てない。かたごを騙して真剣な失敗を犯す。
我々の結果は、超人的AIシステムでさえ、驚くほどの障害モードを持っていることを実証している。
論文 参考訳(メタデータ) (2022-11-01T03:13:20Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games [0.0]
本稿では,Terra Mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索し,比較する。
これらのブレークスルーをTMの新しい状態表現に適用し、人間のプレイヤーに匹敵するAIを作ることを目指しています。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
論文 参考訳(メタデータ) (2021-02-21T07:53:34Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。