論文の概要: When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models
- arxiv url: http://arxiv.org/abs/2602.18739v1
- Date: Sat, 21 Feb 2026 07:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.273931
- Title: When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models
- Title(参考訳): 世界モデル:世界モデルに対する物理的に矛盾した敵対的攻撃
- Authors: Zhixiang Guo, Siyuan Liang, Andras Balogh, Noah Lunberry, Rong-Cheng Tu, Mark Jelasity, Dacheng Tao,
- Abstract要約: 本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
- 参考スコア(独自算出の注目度): 54.08784776767683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative world models (WMs) are increasingly used to synthesize controllable, sensor-conditioned driving videos, yet their reliance on physical priors exposes novel attack surfaces. In this paper, we present Physical-Conditioned World Model Attack (PhysCond-WMA), the first white-box world model attack that perturbs physical-condition channels, such as HDMap embeddings and 3D-box features, to induce semantic, logic, or decision-level distortion while preserving perceptual fidelity. PhysCond-WMA is optimized in two stages: (1) a quality-preserving guidance stage that constrains reverse-diffusion loss below a calibrated threshold, and (2) a momentum-guided denoising stage that accumulates target-aligned gradients along the denoising trajectory for stable, temporally coherent semantic shifts. Extensive experimental results demonstrate that our approach remains effective while increasing FID by about 9% on average and FVD by about 3.9% on average. Under the targeted attack setting, the attack success rate (ASR) reaches 0.55. Downstream studies further show tangible risk, which using attacked videos for training decreases 3D detection performance by about 4%, and worsens open-loop planning performance by about 20%. These findings has for the first time revealed and quantified security vulnerabilities in generative world models, driving more comprehensive security checkers.
- Abstract(参考訳): ジェネレーティブ・ワールド・モデル(英語版)(WMs)は、制御可能なセンサー付き駆動ビデオの合成にますます使われているが、物理的な先行技術に依存しているため、新たな攻撃面が露出する。
本稿では,HDMapの埋め込みや3D-box機能といった物理条件のチャネルを乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMAを提案する。
PhysCond-WMA は,(1) 校正閾値以下で逆拡散損失を抑える品質保存誘導段階,(2) 安定的,時間的コヒーレントなセマンティックシフトのために,目標整列勾配を蓄積する運動量誘導段階の2段階に最適化されている。
その結果,FIDは平均で約9%,FVDは平均で約3.9%増加した。
攻撃目標設定では、攻撃成功率(ASR)は0.55に達する。
ダウンストリーム研究ではさらに、攻撃された動画をトレーニングに使用すると3D検出性能が約4%低下し、オープンループ計画性能が約20%低下する有意義なリスクが示されている。
これらの発見は、生成的世界モデルにおけるセキュリティの脆弱性を初めて明らかにし、定量化し、より包括的なセキュリティチェッカーを駆動している。
関連論文リスト
- BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation [19.153777175873547]
FP-AbDiffはFokker-Planck Equation (FPE) 物理を誘導する最初の抗体生成装置である。
生成力学を物理法則と整合させることにより、FP-AbDiffは堅牢性と一般化性を高め、物理的に忠実で機能的に実行可能な抗体設計のための原則化されたアプローチを確立する。
論文 参考訳(メタデータ) (2025-11-05T01:44:37Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Sequence-Preserving Dual-FoV Defense for Traffic Sign and Light Recognition in Autonomous Vehicles [0.07646713951724012]
本研究では,米国における信号機と信号機のための二重FoV,シーケンス保存型ロバストネスフレームワークを提案する。
実生活における異常検出の応用に関する一連の実験において、本研究では、統一された3層防御スタックフレームワークの概要を概説する。
論文 参考訳(メタデータ) (2025-10-03T00:43:25Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Exploring the Physical World Adversarial Robustness of Vehicle Detection [13.588120545886229]
アドリアックは現実世界の検知モデルの堅牢性を損なう可能性がある。
CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。
本研究は, 逆境条件下での多種多様なモデル性能について考察した。
論文 参考訳(メタデータ) (2023-08-07T11:09:12Z) - Benchmarking the Physical-world Adversarial Robustness of Vehicle
Detection [14.202833467294765]
物理世界の敵対的攻撃は、検出モデルの堅牢性を損なう可能性がある。
Yolo v6は6.59%のAP降下率で強い抵抗を示し、ASAは14.51%のAP減少率を持つ最も効果的な攻撃アルゴリズムであった。
論文 参考訳(メタデータ) (2023-04-11T09:48:25Z) - Robust Trajectory Prediction against Adversarial Attacks [84.10405251683713]
ディープニューラルネットワーク(DNN)を用いた軌道予測は、自律運転システムにおいて不可欠な要素である。
これらの手法は敵の攻撃に対して脆弱であり、衝突などの重大な結果をもたらす。
本研究では,敵対的攻撃に対する軌道予測モデルを保護するための2つの重要な要素を同定する。
論文 参考訳(メタデータ) (2022-07-29T22:35:05Z) - Evaluating the Robustness of Semantic Segmentation for Autonomous
Driving against Real-World Adversarial Patch Attacks [62.87459235819762]
自動運転車のような現実のシナリオでは、現実の敵例(RWAE)にもっと注意を払わなければならない。
本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。
論文 参考訳(メタデータ) (2021-08-13T11:49:09Z) - Dynamically Sampled Nonlocal Gradients for Stronger Adversarial Attacks [3.055601224691843]
深層ニューラルネットワークの脆弱性は、小さな、さらには知覚不能な摂動にも影響し、ディープラーニング研究の中心的なトピックとなっている。
脆弱性防御機構として動的に動的に非局所グラディエント蛍光(DSNGD)を提案する。
DSNGDベースの攻撃は平均35%高速であり、勾配降下型攻撃よりも0.9%から27.1%高い成功率を示した。
論文 参考訳(メタデータ) (2020-11-05T08:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。