論文の概要: WMAttack: Automated Attack Search for Adversarial Evaluation of World-Model Agents
- arxiv url: http://arxiv.org/abs/2605.23220v1
- Date: Fri, 22 May 2026 04:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.19716
- Title: WMAttack: Automated Attack Search for Adversarial Evaluation of World-Model Agents
- Title(参考訳): WMAttack:ワールドモデルエージェントの逆評価のための自動アタック検索
- Authors: Zhixiang Guo, Siyuan Liang, Shi Fu, Cheng Guo, Andras Balogh, Mark Jelasity, Dacheng Tao,
- Abstract要約: WMAttackは、世界モデルエージェントの敵意評価のための自動攻撃探索フレームワークである。
WMAttackは攻撃構成に対する有限予算探索としてロバストネス評価を定式化する。
WMAttackは評価ベースラインよりも強力な攻撃を継続的に発見することを示す。
- 参考スコア(独自算出の注目度): 53.84430233754606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing use of world models as decision-making agents, their adversarial robustness remains underexplored due to the lack of dedicated automated evaluation methods. A key obstacle is that attack evaluation must be both accurate and efficient: weak manually tuned attacks can overestimate robustness, while exhaustive hyperparameter search is prohibitively expensive because each candidate requires closed-loop rollouts through learned latent dynamics. We introduce WMAttack, an automated attack-search framework for adversarial evaluation of world-model agents. WMAttack formulates robustness evaluation as a finite-budget search over attack configurations, including attack families, perturbation budgets, optimization steps, restarts, and allocation rules. To improve search accuracy, Self-Correcting Attack Search (SCAS) refines the attack proposal distribution using feedback from reward degradation, action instability, runtime cost, and rollout variability. To improve search efficiency, Representation-Guided Attack Retrieval (RGAR) retrieves effective historical configurations from representation-similar tasks, providing a warm start for unseen environments. We provide a theoretical explanation showing that proposal refinement improves finite-budget search when it shifts probability mass toward high-utility attacks. Across Atari and DeepMind Control tasks, WMAttack consistently discovers stronger attacks than the evaluated baselines, improving normalized reward drop from 0.497 to 1.034 on DreamerV3 Atari and from 0.319 to 0.682 on DMC. Ablations further show that RGAR improves initial candidate quality and SCAS improves final attack utility under fixed evaluation budgets.
- Abstract(参考訳): 意思決定エージェントとして世界モデルの利用が増加しているにもかかわらず、その敵対的ロバスト性は、専用の自動評価方法が欠如していることから、未発見のままである。
弱い手動で調整された攻撃は頑丈さを過大評価するが、各候補が学習遅延ダイナミクスを通じてクローズループロールアウトを必要とするため、網羅的なハイパーパラメータ探索は違法に高価である。
WMAttackは、世界モデルエージェントの敵意評価のための自動攻撃探索フレームワークである。
WMAttackは、攻撃ファミリー、摂動予算、最適化ステップ、再起動、アロケーションルールを含む攻撃構成に対する有限予算探索として堅牢性の評価を定式化している。
検索精度を向上させるために、自己修正攻撃探索(SCAS)は、報酬の劣化、アクション不安定性、実行コスト、ロールアウト変数からのフィードバックを用いて、攻撃提案分布を洗練する。
検索効率を向上させるため、Representation-Guided Attack Retrieval (RGAR)は、表現類似タスクから効果的な履歴構成を検索し、目に見えない環境に温かいスタートを提供する。
提案手法は, 確率質量を高能率攻撃へシフトさせると, 有限予算探索を改善することを示す理論的説明を提供する。
Atari と DeepMind Control のタスク全体で、WMAttack は評価ベースラインよりも強力な攻撃を発見し、DreamerV3 Atari では 0.497 から 1.034 に、DMC では 0.0.319 から 0.682 に改善した。
さらに、RGARは初期候補品質を向上し、SCASは固定評価予算の下で最終攻撃ユーティリティを向上することを示す。
関連論文リスト
- ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution [0.0]
IoTおよび産業ネットワークの侵入検出には、進化するトラフィックと限定されたラベルの下で信頼性を維持しながら、低い偽陽性率で稀な攻撃を検出できるモデルが必要である。
本研究では,トランスフォーマーをベースとしたシーケンシャルモデリングフレームワークThreatFormer-IDSを提案する。
時系列評価を備えたToN IoTベンチマークでは、ThreatFormer-IDSがAUCROC 0.994、AUC-PR 0.956、Recall@1%FPR 0.910を達成した。
論文 参考訳(メタデータ) (2026-02-26T23:20:42Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - State-Aware Perturbation Optimization for Robust Deep Reinforcement Learning [11.807055530003899]
摂動ステルスネスと状態訪問分散を最適化するために,STARと命名された選択的状態認識強化敵攻撃法を提案する。
情報理論最適化の目的を取り入れ、摂動、環境状態、被害者の行動の相互情報を最大化し、分散した状態・視線分布を確保する。
実験により、STARは最先端のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2025-03-26T15:00:07Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - A Multi-objective Memetic Algorithm for Auto Adversarial Attack
Optimization Design [1.9100854225243937]
良く設計された敵防衛戦略は、敵の例に対するディープラーニングモデルの堅牢性を改善することができる。
防御モデルを考えると、計算負担が少なく、ロバストな精度の低い効率的な敵攻撃を更に活用する必要がある。
本稿では,防衛モデルに対する準最適攻撃の自動探索を実現する自動対向攻撃最適化設計のための多目的メメティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-15T03:03:05Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。