論文の概要: Safety, Security, and Cognitive Risks in World Models
- arxiv url: http://arxiv.org/abs/2604.01346v1
- Date: Wed, 01 Apr 2026 19:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.868209
- Title: Safety, Security, and Cognitive Risks in World Models
- Title(参考訳): 世界モデルにおける安全・安全・認知リスク
- Authors: Manoj Parmar,
- Abstract要約: 我々は、世界モデルは飛行制御ソフトウェアや医療機器と同じ厳格さを必要とする安全クリティカルなインフラとして扱われなければならないと論じている。
トラジェクティブ・パーシスタント・アタックに対する概念実証を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: World models -- learned internal simulators of environment dynamics -- are rapidly becoming foundational to autonomous decision-making in robotics, autonomous vehicles, and agentic AI. Yet this predictive power introduces a distinctive set of safety, security, and cognitive risks. Adversaries can corrupt training data, poison latent representations, and exploit compounding rollout errors to cause catastrophic failures in safety-critical deployments. World model-equipped agents are more capable of goal misgeneralisation, deceptive alignment, and reward hacking precisely because they can simulate the consequences of their own actions. Authoritative world model predictions further foster automation bias and miscalibrated human trust that operators lack the tools to audit. This paper surveys the world model landscape; introduces formal definitions of trajectory persistence and representational risk; presents a five-profile attacker capability taxonomy; and develops a unified threat model extending MITRE ATLAS and the OWASP LLM Top 10 to the world model stack. We provide an empirical proof-of-concept on trajectory-persistent adversarial attacks (GRU-RSSM: A_1 = 2.26x amplification, -59.5% reduction under adversarial fine-tuning; stochastic RSSM proxy: A_1 = 0.65x; DreamerV3 checkpoint: non-zero action drift confirmed). We illustrate risks through four deployment scenarios and propose interdisciplinary mitigations spanning adversarial hardening, alignment engineering, NIST AI RMF and EU AI Act governance, and human-factors design. We argue that world models must be treated as safety-critical infrastructure requiring the same rigour as flight-control software or medical devices.
- Abstract(参考訳): 環境力学の内部シミュレータを学習した世界モデルは、ロボティクス、自動運転車、エージェントAIにおいて、自律的な意思決定の基礎となってきています。
しかし、この予測力は、独特の安全性、セキュリティ、認知リスクをもたらす。
敵はトレーニングデータを破損させ、潜伏した表現を中毒させ、複合的なロールアウトエラーを悪用し、安全クリティカルな展開において破滅的な失敗を引き起こす可能性がある。
世界モデル装備のエージェントは、自分たちの行動の結果をシミュレートできるため、誤った一般化、偽りのアライメント、報酬のハッキングをより正確に行うことができる。
権威ある世界モデル予測は、自動化バイアスをさらに促進し、オペレーターが監査するツールが欠けているという人間の信頼を過小評価する。
本稿では、世界モデル景観を調査し、軌道の持続性と表現リスクの形式的定義を導入し、5つの攻撃能力の分類を示し、世界モデルスタックにMITRE ATLASとOWASP LLM Top 10を拡張した統合脅威モデルを開発する。
GRU-RSSM: A_1 = 2.26x増幅, -59.5%低減, 確率的RSSMプロキシ: A_1 = 0.65x; DreamerV3チェックポイント: 非ゼロアクションドリフト確認)に対する概念実証を行った。
4つのデプロイメントシナリオを通じてリスクを説明し、敵のハードニング、アライメントエンジニアリング、NIST AI RMFとEU AI Actガバナンス、ヒューマンファクタ設計にまたがる学際的緩和を提案する。
我々は、世界モデルは飛行制御ソフトウェアや医療機器と同じ厳格さを必要とする安全クリティカルなインフラとして扱われなければならないと論じている。
関連論文リスト
- Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving [82.69496624372944]
「専門家のように運転するのが普通」は限定的な一般化に苦しむ。
E2E-ADシステムは専門家の行動監督なしに信頼できる判断を下せるか?
本稿では,リスクを意識した世界モデル予測制御という統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T17:32:30Z) - Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (2026-02-16T04:30:06Z) - Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-11-25T13:57:24Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z) - From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails [12.84192844049763]
ほとんどのAIガードレールは、ラベル付きデータセットと人間の特定基準に基づいた出力分類に依存している。
私たちはAIシステムのアウトプットをリアルタイムで監視し、安全なアウトプットに対して積極的に修正する予測ガードレールを構築します。
シミュレーション運転とeコマース設定の実験では、制御理論のガードレールが破滅的な結果を確実に排除できることを示した。
論文 参考訳(メタデータ) (2025-10-15T16:30:57Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。