論文の概要: ICAT: Incident-Case-Grounded Adaptive Testing for Physical-Risk Prediction in Embodied World Models
- arxiv url: http://arxiv.org/abs/2604.16405v1
- Date: Tue, 31 Mar 2026 16:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.969103
- Title: ICAT: Incident-Case-Grounded Adaptive Testing for Physical-Risk Prediction in Embodied World Models
- Title(参考訳): ICAT: 身体的世界モデルにおける物理リスク予測のためのインシデント・ケース・グラウンド・アダプティブ・テスト
- Authors: Zhenglin Lai, Sirui Huang, Yuteng Li, Changxin Huang, Jianqiang Li, Bingzhe Wu,
- Abstract要約: ビデオ生成の世界モデルは、具体的計画と政策学習のためのニューラルシミュレータとしてますます使われている。
これらのモデルはしばしば、危険な行動に対する重要な危険条件や深刻な結果を軽視または省略する。
本報告では,構造的リスクメモリを構築することで,実際のインシデントレポートや安全マニュアルにおけるテストの基盤となるICATを提案する。
- 参考スコア(独自算出の注目度): 16.120001030707346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-generative world models are increasingly used as neural simulators for embodied planning and policy learning, yet their ability to predict physical risk and severe consequences is rarely evaluated.We find that these models often downplay or omit key danger cues and severe outcomes for hazardous actions, which can induce unsafe preferences during planning and training on imagined rollouts. We propose ICAT, which grounds testing in real incident reports and safety manuals by building structured risk memories and retrieving/composing them to constrain the generation of risk cases with causal chains and severity labels. Experiments on an ICAT-based benchmark show that mainstream world models frequently miss mechanisms and triggering conditions and miscalibrate severity, falling short of the reliability required for safety-critical embodied deployment.
- Abstract(参考訳): ビデオ生成の世界モデルは、計画と政策学習を具現化した神経シミュレーターとしてますます使われているが、物理的なリスクと深刻な結果を予測する能力はほとんど評価されていない。
本報告では、構造化されたリスクメモリを構築し、原因連鎖や重度ラベルによるリスクケースの発生を抑えるために、実際のインシデントレポートや安全マニュアルでテストを行うICATを提案する。
ICATベースのベンチマークの実験では、メインストリームの世界モデルは機構を見逃し、条件をトリガーし、深刻さを誤認し、安全クリティカルな実施に必要な信頼性を欠いていることが示されている。
関連論文リスト
- Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework [63.74295981594549]
大規模言語モデル(LLM)は、自身の目的を達成する行動に関与している。
これには、詐欺(故意に誤解を招くユーザや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキングなどが含まれる。
自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
論文 参考訳(メタデータ) (2026-04-23T23:44:01Z) - Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving [82.69496624372944]
「専門家のように運転するのが普通」は限定的な一般化に苦しむ。
E2E-ADシステムは専門家の行動監督なしに信頼できる判断を下せるか?
本稿では,リスクを意識した世界モデル予測制御という統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T17:32:30Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Exploring the Secondary Risks of Large Language Models [26.00748215572094]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。
敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。
本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:31:52Z) - Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning [18.28480383898768]
FORTRESSはロボットの安全性のための共同推論と計画のフレームワークである。
セマンティックに安全なフォールバック戦略を生成し、安全クリティカルなOOD障害を防ぐ。
論文 参考訳(メタデータ) (2025-05-15T17:55:28Z) - Fragility-aware Classification for Understanding Risk and Improving Generalization [6.926253982569273]
リスク・リバースの観点から分類性能を評価する新しい指標であるFragility Index(FI)を導入する。
我々は, クロスエントロピー損失, ヒンジ型損失, リプシッツ損失の正確な修正を導き, 深層学習モデルへのアプローチを拡張した。
論文 参考訳(メタデータ) (2025-02-18T16:44:03Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - A General Framework for Survival Analysis and Multi-State Modelling [70.31153478610229]
ニューラル常微分方程式を多状態生存モデル推定のためのフレキシブルで一般的な方法として用いる。
また,本モデルでは,サバイバルデータセット上での最先端性能を示すとともに,マルチステート環境での有効性を示す。
論文 参考訳(メタデータ) (2020-06-08T19:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。