論文の概要: Using large language models for embodied planning introduces systematic safety risks
- arxiv url: http://arxiv.org/abs/2604.18463v1
- Date: Mon, 20 Apr 2026 16:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.987659
- Title: Using large language models for embodied planning introduces systematic safety risks
- Title(参考訳): 大規模言語モデルを具体化計画に用いると、系統的安全リスクが生じる
- Authors: Tao Zhang, Kaixian Qu, Zhibin Li, Jiajun Wu, Marco Hutter, Manling Li, Fan Shi,
- Abstract要約: 大きな言語モデルは、ロボットシステムのプランナーとしてますます使われていますが、どのように安全に計画するかは未解決の問題です。
安全なプランニングを体系的に評価するために,身体的および規範的危険にまたがる12,279のタスクのベンチマークであるDESPITEを導入し,完全な決定論的検証を行う。
最高の計画モデルでは、わずか0.4%のタスクで有効な計画を作成することができず、28.3%で危険な計画を作成する。
- 参考スコア(独自算出の注目度): 31.517372566142598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used as planners for robotic systems, yet how safely they plan remains an open question. To evaluate safe planning systematically, we introduce DESPITE, a benchmark of 12,279 tasks spanning physical and normative dangers with fully deterministic validation. Across 23 models, even near-perfect planning ability does not ensure safety: the best-planning model fails to produce a valid plan on only 0.4% of tasks but produces dangerous plans on 28.3%. Among 18 open-source models from 3B to 671B parameters, planning ability improves substantially with scale (0.4-99.3%) while safety awareness remains relatively flat (38-57%). We identify a multiplicative relationship between these two capacities, showing that larger models complete more tasks safely primarily through improved planning, not through better danger avoidance. Three proprietary reasoning models reach notably higher safety awareness (71-81%), while non-reasoning proprietary models and open-source reasoning models remain below 57%. As planning ability approaches saturation for frontier models, improving safety awareness becomes a central challenge for deploying language-model planners in robotic systems.
- Abstract(参考訳): 大きな言語モデルは、ロボットシステムのプランナーとしてますます使われていますが、どのように安全に計画するかは未解決の問題です。
安全なプランニングを体系的に評価するために,身体的および規範的危険にまたがる12,279のタスクのベンチマークであるDESPITEを導入し,完全な決定論的検証を行う。
最高の計画モデルでは、わずか0.4%のタスクで有効な計画を作成することができず、28.3%で危険な計画を作成する。
3Bから671Bパラメータの18のオープンソースモデルの中で、計画能力はスケール(0.4-99.3%)で大幅に改善され、安全性の認識は比較的平坦(38-57%)である。
これら2つの能力間の乗法的関係を同定し、より大規模なモデルが、より優れたリスク回避によってではなく、主に計画の改善を通じて、安全により多くのタスクを完了していることを示す。
3つのプロプライエタリな推論モデルは特に高い安全性意識(71-81%)に達するが、非プロプライエタリな推論モデルとオープンソースな推論モデルは57%以下である。
計画能力がフロンティアモデルの飽和に近づくにつれ、ロボットシステムに言語モデルプランナーを配置する上で、安全意識の向上が重要な課題となっている。
関連論文リスト
- Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model [50.29667251847595]
モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。
本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
論文 参考訳(メタデータ) (2026-04-01T02:42:41Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems [6.519619621963528]
我々はSafeGen-LLMという名前の安全汎用型大規模言語モデルを提案する。
SafeGen-LLMは、タスクプランの安全性の満足度を高めるだけでなく、様々な領域における新しい安全性特性を一般化する。
論文 参考訳(メタデータ) (2026-02-27T18:06:10Z) - ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always! [37.01773368481712]
大規模言語モデル(LLM)の安全性は,大規模なデプロイメントを実現する上で,最も重要な課題のひとつだ。
ユーザクエリを適切に受け入れたり拒否したりできる LLM の機能として定義された,運用上の安全性を導入します。
我々の評価によると、性能はモデルによって異なるが、それらすべてが非常に運用上安全ではない。
論文 参考訳(メタデータ) (2025-09-30T16:39:17Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Guided Safe Shooting: model based reinforcement learning with safety constraints [3.8490154494129327]
安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を導入する。
提案する安全プランナは3つあり,1つは単純なランダム・シューティング・ストラテジーに基づくもので,もう1つはより高度な分岐探索アルゴリズムMAP-Elitesに基づくものである。
論文 参考訳(メタデータ) (2022-06-20T12:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。