論文の概要: ResTNet: Defense against Adversarial Policies via Transformer in Computer Go
- arxiv url: http://arxiv.org/abs/2410.05347v1
- Date: Mon, 7 Oct 2024 10:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:17:28.526239
- Title: ResTNet: Defense against Adversarial Policies via Transformer in Computer Go
- Title(参考訳): ResTNet: コンピュータ囲碁におけるトランスフォーマーによる敵対的政策に対する防御
- Authors: Tai-Lin Wu, Ti-Rong Wu, Chung-Chin Shih, Yan-Ru Ju, I-Chen Wu,
- Abstract要約: 本稿では,残余ネットワークとTransformerをインターリーブするネットワークであるResTNetを紹介する。
演奏力を高め、グローバルな情報の能力を高める。
また、意思決定プロセスの潜在的な説明も提供する。
- 参考スコア(独自算出の注目度): 19.943947510626767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although AlphaZero has achieved superhuman levels in Go, recent research has highlighted its vulnerability in particular situations requiring a more comprehensive understanding of the entire board. To address this challenge, this paper introduces ResTNet, a network that interleaves residual networks and Transformer. Our empirical experiments demonstrate several advantages of using ResTNet. First, it not only improves playing strength but also enhances the ability of global information. Second, it defends against an adversary Go program, called cyclic-adversary, tailor-made for attacking AlphaZero algorithms, significantly reducing the average probability of being attacked rate from 70.44% to 23.91%. Third, it improves the accuracy from 59.15% to 80.01% in correctly recognizing ladder patterns, which are one of the challenging patterns for Go AIs. Finally, ResTNet offers a potential explanation of the decision-making process and can also be applied to other games like Hex. To the best of our knowledge, ResTNet is the first to integrate residual networks and Transformer in the context of AlphaZero for board games, suggesting a promising direction for enhancing AlphaZero's global understanding.
- Abstract(参考訳): AlphaZeroはGoで超人的レベルを達成したが、最近の研究では、ボード全体のより包括的な理解を必要とする特定の状況における脆弱性を強調している。
この課題に対処するために,残余ネットワークとトランスフォーマーをインターリーブするネットワークであるResTNetを紹介する。
我々の実証実験はResTNetの利点を実証している。
第一に、演奏力を向上させるだけでなく、グローバルな情報も強化する。
第2に、AlphaZeroアルゴリズムを攻撃するために作られたサイクリックアドバイザリーと呼ばれるGoプログラムを防御し、攻撃される確率を70.44%から23.91%に大幅に下げる。
第三に、Go AIにとって難しいパターンの1つであるはしごパターンを正しく認識することで、59.15%から80.01%に精度を向上する。
最後に、ResTNetは意思決定プロセスの潜在的な説明を提供し、Hexのような他のゲームにも適用することができる。
我々の知る限り、ResTNetはAlphaZeroのボードゲームにおける残余ネットワークとTransformerを初めて統合し、AlphaZeroのグローバルな理解を高めるための有望な方向性を示唆している。
関連論文リスト
- FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Representation Matters for Mastering Chess: Improved Feature Representation in AlphaZero Outperforms Switching to Transformers [18.347534843178355]
ビジョントランスフォーマー(ViT)はチェスの習得には不十分である。
本稿では、入力表現と値損失関数の簡単な変更を含む実用的な改善を提案する。
その結果、チェスにおいて現在AlphaZeroで達成可能なものを超え、最大180エロポイントの大幅なパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2023-04-28T15:33:39Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Demystifying the Adversarial Robustness of Random Transformation
Defenses [6.2890690009919314]
ランダムプロパティ(RT)を使ったディフェンスは、特にImageNet上のBaRT(Raff et al.)のような印象的な結果を示している。
それらの特性は評価をより困難にし、決定論的モデルに対する多くの提案された攻撃を適用不可能にする。
BaRTの評価に使用されるBPDA攻撃(Athalye et al., 2018a)は効果がなく、その堅牢性を過大評価している可能性が示唆された。
我々はRT防御を評価するための最強の攻撃を作成します。我々の新しい攻撃はベースラインを大幅に上回り、一般的に使用されるEoT攻撃(4.3倍=改善)と比較して精度を83%削減します。
論文 参考訳(メタデータ) (2022-06-18T04:14:38Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - Overcomplete Representations Against Adversarial Videos [72.04912755926524]
敵対ビデオ(OUDefend)に対する防御のための新しいオーバー・アンド・アンダー完全修復ネットワークを提案します。
OUDefendは、これらの2つの表現を学習することで、ローカル機能とグローバル機能のバランスをとるように設計されている。
実験の結果,画像に焦点をあてた防御はビデオに効果がない可能性があるが,oudefendは異なるタイプの敵ビデオに対して頑健性を高める。
論文 参考訳(メタデータ) (2020-12-08T08:00:17Z) - Boosting Gradient for White-Box Adversarial Attacks [60.422511092730026]
そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上を目的とした,汎用的な逆例生成手法を提案する。
提案手法では,損失関数とネットワーク入力の勾配を算出し,その値をスコアにマップし,その一部を選択して誤導勾配を更新する。
論文 参考訳(メタデータ) (2020-10-21T02:13:26Z) - Derived metrics for the game of Go -- intrinsic network strength
assessment and cheat-detection [0.0]
第二世代のエンジンのイノベーションが、新しいメトリクスを定義するためにどのように使用できるか、という2つの方法を説明します。
まず,探索成分が生のニューラルネットワークポリシ出力に加え,どの程度の情報に寄与するかを検討する。
第2に、スコア推定の差による移動の効果を定義する。
論文 参考訳(メタデータ) (2020-09-03T12:25:02Z) - Mobile Networks for Computer Go [4.38602607138044]
本稿では,教師あり学習を用いた囲碁ゲームにおけるモバイルネットワークの関心度を評価することを提案する。
パラメータ数を有するネットワークの精度,平均二乗誤差,ネットワークの効率,トレーニングされたネットワークの演奏速度,強度を評価する。
論文 参考訳(メタデータ) (2020-08-23T17:57:33Z) - Smooth Adversarial Training [120.44430400607483]
ネットワークは正確かつ堅牢であると一般に信じられている。
ここでは、敵対的訓練に関する慎重な研究により、これらの共通の信念に挑戦する証拠を提示する。
本研究では、ReLUをそのスムーズな近似で置き換えて、逆行訓練を強化するスムーズな逆行訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2020-06-25T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。