論文の概要: Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making
- arxiv url: http://arxiv.org/abs/2601.05529v2
- Date: Thu, 15 Jan 2026 05:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.23454
- Title: Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making
- Title(参考訳): 安全は見つからない(404年):LLMによるロボット意思決定の隠れたリスク
- Authors: Jua Han, Jaeyoon Seo, Jungbin Min, Jean Oh, Jihie Kim,
- Abstract要約: 安全クリティカルな環境でのAIシステムによる1つの間違いは、命がかかる可能性がある。
大きな言語モデル(LLM)がロボットの意思決定に不可欠なものになると、リスクの物理的次元が大きくなる。
本稿では,軽微な誤りであっても破滅的なシナリオにおいて,LCMの性能を体系的に評価する緊急的必要性について論じる。
- 参考スコア(独自算出の注目度): 12.400383981686801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One mistake by an AI system in a safety-critical setting can cost lives. As Large Language Models (LLMs) become integral to robotics decision-making, the physical dimension of risk grows; a single wrong instruction can directly endanger human safety. This paper addresses the urgent need to systematically evaluate LLM performance in scenarios where even minor errors are catastrophic. Through a qualitative evaluation of a fire evacuation scenario, we identified critical failure cases in LLM-based decision-making. Based on these, we designed seven tasks for quantitative assessment, categorized into: Complete Information, Incomplete Information, and Safety-Oriented Spatial Reasoning (SOSR). Complete information tasks utilize ASCII maps to minimize interpretation ambiguity and isolate spatial reasoning from visual processing. Incomplete information tasks require models to infer missing context, testing for spatial continuity versus hallucinations. SOSR tasks use natural language to evaluate safe decision-making in life-threatening contexts. We benchmark various LLMs and Vision-Language Models (VLMs) across these tasks. Beyond aggregate performance, we analyze the implications of a 1% failure rate, highlighting how "rare" errors escalate into catastrophic outcomes. Results reveal serious vulnerabilities: several models achieved a 0% success rate in ASCII navigation, while in a simulated fire drill, models instructed robots to move toward hazardous areas instead of emergency exits. Our findings lead to a sobering conclusion: current LLMs are not ready for direct deployment in safety-critical systems. A 99% accuracy rate is dangerously misleading in robotics, as it implies one out of every hundred executions could result in catastrophic harm. We demonstrate that even state-of-the-art models cannot guarantee safety, and absolute reliance on them creates unacceptable risks.
- Abstract(参考訳): 安全クリティカルな環境でのAIシステムによる1つの間違いは、命がかかる可能性がある。
大きな言語モデル(LLMs)がロボットの意思決定に不可欠なものになると、リスクの物理的次元が増大する。
本稿では,軽微な誤りであっても破滅的なシナリオにおいて,LCMの性能を体系的に評価する緊急的必要性について論じる。
火災避難シナリオの質的評価を通じて, LLMに基づく意思決定における重大な故障事例を特定した。
そこで我々は, 完全情報, 不完全情報, 安全指向空間推論 (SOSR) の7つの課題を定量的評価のために設計した。
完全情報タスクは、解釈の曖昧さを最小限に抑え、視覚処理から空間的推論を分離するためにASCIIマップを利用する。
不完全な情報タスクは、空間的連続性と幻覚に対するテストにおいて、欠落したコンテキストを推測するモデルを必要とする。
SOSRタスクは自然言語を用いて、生命を脅かす文脈における安全な意思決定を評価する。
これらのタスク間で様々なLLMとVLM(Vision-Language Model)をベンチマークする。
総合的なパフォーマンスに加えて、1%の失敗率の影響を分析し、"まれ"なエラーが破滅的な結果にどのようにエスカレートするかを強調します。
いくつかのモデルがASCIIナビゲーションで0%の成功率を達成した一方で、模擬射撃訓練では、ロボットに緊急出口ではなく危険地域に向かうように指示した。
現在のLLMは、安全クリティカルなシステムに直接デプロイする準備ができていません。
ロボット工学では、100件の処刑のうち1件が破滅的な被害をもたらす可能性があるため、99%の精度が危険なほど誤解を招く。
我々は、最先端モデルでさえ安全性を保証できず、それらへの絶対依存が許容できないリスクを生じさせることを示した。
関連論文リスト
- What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? [28.12412876058788]
身体化されたAIシステムは、制御された環境から安全クリティカルな現実世界へのデプロイへと急速に移行している。
インボディードAIとは異なり、インボディードインテリジェンスにおける失敗は、不可逆的な物理的結果をもたらす。
我々は,実施によるシステムレベルのミスマッチから,重大な障害が生じることを論じる。
論文 参考訳(メタデータ) (2026-02-19T13:29:00Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition [12.054081112688074]
VLM(Vision-Language Models)は、視覚的コンテンツを解釈する能力を示しているが、安全クリティカルなシナリオにおける信頼性はまだ十分に調査されていない。
本稿では,200枚の合成画像(100対)と50枚の実世界の画像(25対)からなる診断ベンチマークVERIを紹介する。
各緊急シーンは、人間の検証によって視覚的に似ているが安全なものとペアリングされる。
論文 参考訳(メタデータ) (2025-05-21T10:57:40Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - BadRobot: Jailbreaking Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的エンティティに統合されるシステムを表す。
大きな言語モデル(LLM)は強力な言語理解能力を示す。
我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文 参考訳(メタデータ) (2024-07-16T13:13:16Z) - LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions [3.1247504290622214]
研究は、大規模言語モデルが現実世界のロボット実験や応用において差別的な結果や安全でない行動をもたらす可能性を懸念している。
高い評価を受けたLLMの識別基準と安全性基準のHRIに基づく評価を行う。
結果から, 組織的, 定期的, 包括的リスクアセスメントと, 成果改善のための保証の必要性が浮き彫りとなった。
論文 参考訳(メタデータ) (2024-06-13T05:31:49Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。