論文の概要: Can AI Perceive Physical Danger and Intervene?
- arxiv url: http://arxiv.org/abs/2509.21651v1
- Date: Thu, 25 Sep 2025 22:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.048334
- Title: Can AI Perceive Physical Danger and Intervene?
- Title(参考訳): AIは物理的危険と介入を認識できるか?
- Authors: Abhishek Jindal, Dmitry Kalashnikov, Oscar Chang, Divya Garikapati, Anirudha Majumdar, Pierre Sermanet, Vikas Sindhwani,
- Abstract要約: AIが物理的な世界と対話するとき、新しい安全上の課題が生まれる。
最先端のファンデーションモデルは、物理的な安全性に関する常識的な事実をどの程度理解していますか?
- 参考スコア(独自算出の注目度): 16.825608691806988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When AI interacts with the physical world -- as a robot or an assistive agent -- new safety challenges emerge beyond those of purely ``digital AI". In such interactions, the potential for physical harm is direct and immediate. How well do state-of-the-art foundation models understand common-sense facts about physical safety, e.g. that a box may be too heavy to lift, or that a hot cup of coffee should not be handed to a child? In this paper, our contributions are three-fold: first, we develop a highly scalable approach to continuous physical safety benchmarking of Embodied AI systems, grounded in real-world injury narratives and operational safety constraints. To probe multi-modal safety understanding, we turn these narratives and constraints into photorealistic images and videos capturing transitions from safe to unsafe states, using advanced generative models. Secondly, we comprehensively analyze the ability of major foundation models to perceive risks, reason about safety, and trigger interventions; this yields multi-faceted insights into their deployment readiness for safety-critical agentic applications. Finally, we develop a post-training paradigm to teach models to explicitly reason about embodiment-specific safety constraints provided through system instructions. The resulting models generate thinking traces that make safety reasoning interpretable and transparent, achieving state of the art performance in constraint satisfaction evaluations. The benchmark will be released at https://asimov-benchmark.github.io/v2
- Abstract(参考訳): ロボットや補助エージェントとして、AIが物理的な世界と対話する場合、純粋な「デジタルAI」以上の新たな安全上の課題が生まれる。
このような相互作用において、物理的害のポテンシャルは直接的かつ即時である。
たとえば、箱が持ち上げるには重すぎるかもしれないし、熱いコーヒーを子供に渡してはならない、といったことだ。
まず、実世界のケガの物語と運用上の安全制約を基盤とした、エンボディードAIシステムの継続的な物理的安全性ベンチマークに対する、高度にスケーラブルなアプローチを開発します。
マルチモーダルな安全理解を探索するために,これらの物語や制約を,高度な生成モデルを用いて,安全な状態から安全でない状態への遷移を捉えたフォトリアリスティックな画像やビデオに変換する。
第2に、リスクの認識、安全性の判断、介入のトリガーといった主要な基盤モデルの能力を包括的に分析することで、安全クリティカルなエージェントアプリケーションに対するデプロイメントの準備性に関する多面的な洞察が得られる。
最後に,システム命令によって提供される具体的安全制約を明示的に推論するモデルを教えるためのポストトレーニングパラダイムを開発する。
得られたモデルは、安全推論を解釈可能かつ透明にし、制約満足度評価における最先端のパフォーマンスを達成する思考トレースを生成する。
ベンチマークはhttps://asimov-benchmark.github.io/v2で公開される。
関連論文リスト
- What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? [28.12412876058788]
身体化されたAIシステムは、制御された環境から安全クリティカルな現実世界へのデプロイへと急速に移行している。
インボディードAIとは異なり、インボディードインテリジェンスにおける失敗は、不可逆的な物理的結果をもたらす。
我々は,実施によるシステムレベルのミスマッチから,重大な障害が生じることを論じる。
論文 参考訳(メタデータ) (2026-02-19T13:29:00Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails [12.84192844049763]
ほとんどのAIガードレールは、ラベル付きデータセットと人間の特定基準に基づいた出力分類に依存している。
私たちはAIシステムのアウトプットをリアルタイムで監視し、安全なアウトプットに対して積極的に修正する予測ガードレールを構築します。
シミュレーション運転とeコマース設定の実験では、制御理論のガードレールが破滅的な結果を確実に排除できることを示した。
論文 参考訳(メタデータ) (2025-10-15T16:30:57Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Oyster-I: Beyond Refusal - Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - On Safety Assessment of Artificial Intelligence [0.0]
人工知能の多くのモデル、特に機械学習は統計モデルであることを示す。
危険なランダム障害の予算の一部は、AIシステムの確率論的欠陥行動に使用される必要がある。
我々は、安全関連システムにおけるAIの利用に決定的な研究課題を提案する。
論文 参考訳(メタデータ) (2020-02-29T14:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。