論文の概要: Can Go AIs be adversarially robust?
- arxiv url: http://arxiv.org/abs/2406.12843v2
- Date: Tue, 24 Sep 2024 08:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:48:06.510999
- Title: Can Go AIs be adversarially robust?
- Title(参考訳): Go AIは逆向きに堅牢か?
- Authors: Tom Tseng, Euan McLean, Kellin Pelrine, Tony T. Wang, Adam Gleave,
- Abstract要約: 自然対策を加えることで、Goの堅牢性が達成できるかどうかを考察する。
これらの防御策のいくつかは、以前発見された攻撃から守られているが、新しく訓練された敵には耐えられない。
我々の研究結果は、堅牢なAIシステムの構築は、非常に超人的なシステムであっても、最も難易度の高い設定で難しいことを示唆している。
- 参考スコア(独自算出の注目度): 4.466856575755327
- License:
- Abstract: Prior work found that superhuman Go AIs can be defeated by simple adversarial strategies, especially "cyclic" attacks. In this paper, we study whether adding natural countermeasures can achieve robustness in Go, a favorable domain for robustness since it benefits from incredible average-case capability and a narrow, innately adversarial setting. We test three defenses: adversarial training on hand-constructed positions, iterated adversarial training, and changing the network architecture. We find that though some of these defenses protect against previously discovered attacks, none withstand freshly trained adversaries. Furthermore, most of the reliably effective attacks these adversaries discover are different realizations of the same overall class of cyclic attacks. Our results suggest that building robust AI systems is challenging even with extremely superhuman systems in some of the most tractable settings, and highlight two key gaps: efficient generalization in defenses, and diversity in training. For interactive examples of attacks and a link to our codebase, see https://goattack.far.ai.
- Abstract(参考訳): 以前の研究によると、超人的な囲碁AIは単純な敵戦略、特に「周期的な」攻撃によって倒される可能性がある。
本稿では, 自然対策の追加が, 極めて高い平均ケース能力と, 本質的には狭く, 対角的な設定の恩恵を受け, 強靭性に有利なドメインであるGoの堅牢性を実現することができるかどうかを考察する。
我々は,手作り位置における敵の訓練,反復的敵の訓練,ネットワークアーキテクチャの変更の3つの防御策を検証した。
これらの防御策のいくつかは、以前発見された攻撃から守られているが、新しく訓練された敵には耐えられない。
さらに、これらの敵が発見する確実な効果的な攻撃のほとんどは、同じサイクルアタックの全体クラスの異なる実現である。
以上の結果から,堅牢なAIシステムの構築は,極めて超人的なシステムでも極めて困難な状況にあることが示唆され,防衛の効率的な一般化とトレーニングにおける多様性という,2つの大きなギャップが浮き彫りにされている。
攻撃のインタラクティブな例とコードベースへのリンクについては、https://goattack.far.ai.com/ をご覧ください。
関連論文リスト
- A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion [0.0]
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
論文 参考訳(メタデータ) (2024-05-03T04:08:15Z) - The Best Defense is a Good Offense: Adversarial Augmentation against
Adversarial Attacks [91.56314751983133]
A5$は、手元の入力に対する攻撃が失敗することを保証するために防御的摂動を構築するためのフレームワークである。
我々は,地上の真理ラベルを無視するロバスト化ネットワークを用いて,実機での防御強化を効果的に示す。
また、A5$を適用して、確実に堅牢な物理オブジェクトを作成する方法も示します。
論文 参考訳(メタデータ) (2023-05-23T16:07:58Z) - Adversarial Policies Beat Superhuman Go AIs [54.15639517188804]
我々は,現在最先端の囲碁AIシステムであるKataGoを,敵の政策を訓練することによって攻撃する。
敵は囲碁を上手に弾くことで勝てない。かたごを騙して真剣な失敗を犯す。
我々の結果は、超人的AIシステムでさえ、驚くほどの障害モードを持っていることを実証している。
論文 参考訳(メタデータ) (2022-11-01T03:13:20Z) - Defending Against Stealthy Backdoor Attacks [1.6453255188693543]
近年の研究では,ナチュラル言語処理(NLP)モデルに対する攻撃は困難ではないことが示されている。
本研究では,このような攻撃に対して有効な防衛戦略をいくつか提示する。
論文 参考訳(メタデータ) (2022-05-27T21:38:42Z) - The Threat of Offensive AI to Organizations [52.011307264694665]
この調査は、組織に対する攻撃的なAIの脅威を調査する。
まず、AIが敵の方法、戦略、目標、および全体的な攻撃モデルをどのように変えるかについて議論する。
そして、文献レビューを通じて、敵が攻撃を強化するために使用できる33の攻撃的AI能力を特定します。
論文 参考訳(メタデータ) (2021-06-30T01:03:28Z) - What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors [57.040948169155925]
敵対的なトレーニングフレームワークを拡張し、(訓練時間)中毒やバックドア攻撃から防御します。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2021-02-26T17:54:36Z) - Mitigating Advanced Adversarial Attacks with More Advanced Gradient
Obfuscation Techniques [13.972753012322126]
Deep Neural Networks (DNN) は、Adversarial Examples (AEs) に弱いことがよく知られている。
近年,高度勾配に基づく攻撃手法が提案されている。
本稿では、これらの高度な勾配に基づく攻撃を緩和するための着実に一歩を踏み出す。
論文 参考訳(メタデータ) (2020-05-27T23:42:25Z) - Certified Defenses for Adversarial Patches [72.65524549598126]
敵パッチ攻撃は、現実世界のコンピュータビジョンシステムに対する最も実用的な脅威モデルの一つである。
本稿では,パッチアタックに対する認証と実証的防御について検討する。
論文 参考訳(メタデータ) (2020-03-14T19:57:31Z) - Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。
本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T06:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。