論文の概要: ResTNet: Defense against Adversarial Policies via Transformer in Computer Go
- arxiv url: http://arxiv.org/abs/2410.05347v1
- Date: Mon, 7 Oct 2024 10:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 19:17:28.526239
- Title: ResTNet: Defense against Adversarial Policies via Transformer in Computer Go
- Title(参考訳): ResTNet: コンピュータ囲碁におけるトランスフォーマーによる敵対的政策に対する防御
- Authors: Tai-Lin Wu, Ti-Rong Wu, Chung-Chin Shih, Yan-Ru Ju, I-Chen Wu,
- Abstract要約: 本稿では,残余ネットワークとTransformerをインターリーブするネットワークであるResTNetを紹介する。
演奏力を高め、グローバルな情報の能力を高める。
また、意思決定プロセスの潜在的な説明も提供する。
- 参考スコア(独自算出の注目度): 19.943947510626767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although AlphaZero has achieved superhuman levels in Go, recent research has highlighted its vulnerability in particular situations requiring a more comprehensive understanding of the entire board. To address this challenge, this paper introduces ResTNet, a network that interleaves residual networks and Transformer. Our empirical experiments demonstrate several advantages of using ResTNet. First, it not only improves playing strength but also enhances the ability of global information. Second, it defends against an adversary Go program, called cyclic-adversary, tailor-made for attacking AlphaZero algorithms, significantly reducing the average probability of being attacked rate from 70.44% to 23.91%. Third, it improves the accuracy from 59.15% to 80.01% in correctly recognizing ladder patterns, which are one of the challenging patterns for Go AIs. Finally, ResTNet offers a potential explanation of the decision-making process and can also be applied to other games like Hex. To the best of our knowledge, ResTNet is the first to integrate residual networks and Transformer in the context of AlphaZero for board games, suggesting a promising direction for enhancing AlphaZero's global understanding.
- Abstract(参考訳): AlphaZeroはGoで超人的レベルを達成したが、最近の研究では、ボード全体のより包括的な理解を必要とする特定の状況における脆弱性を強調している。
この課題に対処するために,残余ネットワークとトランスフォーマーをインターリーブするネットワークであるResTNetを紹介する。
我々の実証実験はResTNetの利点を実証している。
第一に、演奏力を向上させるだけでなく、グローバルな情報も強化する。
第2に、AlphaZeroアルゴリズムを攻撃するために作られたサイクリックアドバイザリーと呼ばれるGoプログラムを防御し、攻撃される確率を70.44%から23.91%に大幅に下げる。
第三に、Go AIにとって難しいパターンの1つであるはしごパターンを正しく認識することで、59.15%から80.01%に精度を向上する。
最後に、ResTNetは意思決定プロセスの潜在的な説明を提供し、Hexのような他のゲームにも適用することができる。
我々の知る限り、ResTNetはAlphaZeroのボードゲームにおける残余ネットワークとTransformerを初めて統合し、AlphaZeroのグローバルな理解を高めるための有望な方向性を示唆している。
関連論文リスト
- Contrastive Forward-Forward: A Training Algorithm of Vision Transformer [1.6574413179773757]
Forward-Forwardは、脳内で起きていることに近い新しいトレーニングアルゴリズムだ。
本研究では,このアルゴリズムを,より複雑で現代的なネットワークであるビジョントランスフォーマーに拡張した。
提案アルゴリズムは,精度を最大10%向上し,Vision Transformerの収束速度を5~20倍に向上させる。
論文 参考訳(メタデータ) (2025-02-01T21:41:59Z) - Enhancing Chess Reinforcement Learning with Graph Representation [21.919003715442074]
グラフニューラルネットワーク(GNN)に基づくより一般的なアーキテクチャを導入する。
この新しいアーキテクチャは、同じ数のパラメータで以前のアーキテクチャより優れていることを示す。
また、より小さな5倍のチェスでトレーニングすると、通常の8倍のチェスでプレイできるように素早く微調整できることも示しています。
論文 参考訳(メタデータ) (2024-10-31T09:18:47Z) - Using Deep Convolutional Neural Networks to Detect Rendered Glitches in Video Games [0.09831489366502298]
本研究は,86.8%の精度で高い性能を達成できるテクスチャ・グラフィカルな異常を検出することに焦点を当てている。
本研究は, 偽陽性問題に対処するための信頼度測定と, 画像のアグリゲーションを効果的に行い, 製造時の検出精度の向上を図ることを目的とする。
論文 参考訳(メタデータ) (2024-06-12T13:59:45Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - Representation Matters for Mastering Chess: Improved Feature Representation in AlphaZero Outperforms Switching to Transformers [18.347534843178355]
ビジョントランスフォーマー(ViT)はチェスの習得には不十分である。
本稿では、入力表現と値損失関数の簡単な変更を含む実用的な改善を提案する。
その結果、チェスにおいて現在AlphaZeroで達成可能なものを超え、最大180エロポイントの大幅なパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2023-04-28T15:33:39Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Predicting Winning Regions in Parity Games via Graph Neural Networks
(Extended Abstract) [68.8204255655161]
グラフニューラルネットワークを用いてパリティゲームの勝利領域を決定するための不完全時間的アプローチを提案する。
これは、データセットの60%の勝利領域を正しく決定し、残りの領域で小さなエラーしか発生しない。
論文 参考訳(メタデータ) (2022-10-18T15:10:25Z) - Demystifying the Adversarial Robustness of Random Transformation
Defenses [6.2890690009919314]
ランダムプロパティ(RT)を使ったディフェンスは、特にImageNet上のBaRT(Raff et al.)のような印象的な結果を示している。
それらの特性は評価をより困難にし、決定論的モデルに対する多くの提案された攻撃を適用不可能にする。
BaRTの評価に使用されるBPDA攻撃(Athalye et al., 2018a)は効果がなく、その堅牢性を過大評価している可能性が示唆された。
我々はRT防御を評価するための最強の攻撃を作成します。我々の新しい攻撃はベースラインを大幅に上回り、一般的に使用されるEoT攻撃(4.3倍=改善)と比較して精度を83%削減します。
論文 参考訳(メタデータ) (2022-06-18T04:14:38Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - Reinforcement Learning For Constraint Satisfaction Game Agents
(15-Puzzle, Minesweeper, 2048, and Sudoku) [0.0]
Deep Q-LearningはAtariやAlphaGoといったゲームで有望な結果を示している。
我々は,4つの制約満足度ゲームの制御ポリシーを学習するために,Qラーニングと深層Qラーニングを使用する。
これらのゲームは強化学習の可能性と限界に関するユニークな洞察を与える。
論文 参考訳(メタデータ) (2021-02-09T22:29:29Z) - AutoDropout: Learning Dropout Patterns to Regularize Deep Networks [82.28118615561912]
ドロップアウトまたは重量減衰方法は、ネットワークの入力と隠された状態の構造を利用しません。
本手法は,CIFAR-10 と ImageNet 上の画像認識と Penn Treebank および WikiText-2 上の言語モデリングに有効であることを示す。
学習したドロップアウトパターンは、penn treebankの言語モデルからwmt 2014のengligh- french translationまで、さまざまなタスクやデータセットに転送される。
論文 参考訳(メタデータ) (2021-01-05T19:54:22Z) - Overcomplete Representations Against Adversarial Videos [72.04912755926524]
敵対ビデオ(OUDefend)に対する防御のための新しいオーバー・アンド・アンダー完全修復ネットワークを提案します。
OUDefendは、これらの2つの表現を学習することで、ローカル機能とグローバル機能のバランスをとるように設計されている。
実験の結果,画像に焦点をあてた防御はビデオに効果がない可能性があるが,oudefendは異なるタイプの敵ビデオに対して頑健性を高める。
論文 参考訳(メタデータ) (2020-12-08T08:00:17Z) - Boosting Gradient for White-Box Adversarial Attacks [60.422511092730026]
そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上を目的とした,汎用的な逆例生成手法を提案する。
提案手法では,損失関数とネットワーク入力の勾配を算出し,その値をスコアにマップし,その一部を選択して誤導勾配を更新する。
論文 参考訳(メタデータ) (2020-10-21T02:13:26Z) - MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks [57.69809561405253]
我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
論文 参考訳(メタデータ) (2020-09-17T17:59:33Z) - Derived metrics for the game of Go -- intrinsic network strength
assessment and cheat-detection [0.0]
第二世代のエンジンのイノベーションが、新しいメトリクスを定義するためにどのように使用できるか、という2つの方法を説明します。
まず,探索成分が生のニューラルネットワークポリシ出力に加え,どの程度の情報に寄与するかを検討する。
第2に、スコア推定の差による移動の効果を定義する。
論文 参考訳(メタデータ) (2020-09-03T12:25:02Z) - Mobile Networks for Computer Go [4.38602607138044]
本稿では,教師あり学習を用いた囲碁ゲームにおけるモバイルネットワークの関心度を評価することを提案する。
パラメータ数を有するネットワークの精度,平均二乗誤差,ネットワークの効率,トレーニングされたネットワークの演奏速度,強度を評価する。
論文 参考訳(メタデータ) (2020-08-23T17:57:33Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Smooth Adversarial Training [120.44430400607483]
ネットワークは正確かつ堅牢であると一般に信じられている。
ここでは、敵対的訓練に関する慎重な研究により、これらの共通の信念に挑戦する証拠を提示する。
本研究では、ReLUをそのスムーズな近似で置き換えて、逆行訓練を強化するスムーズな逆行訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2020-06-25T16:34:39Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。