論文の概要: A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents
- arxiv url: http://arxiv.org/abs/2504.14650v1
- Date: Sun, 20 Apr 2025 15:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 21:06:18.925287
- Title: A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents
- Title(参考訳): LLMエージェントのベンチマーク・アライメント・タスク・プランニング・セーフ化のためのフレームワーク
- Authors: Yuting Huang, Leilei Ding, Zhipeng Tang, Tianfu Wang, Xinrui Lin, Wuyang Zhang, Mingxiao Ma, Yanyong Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、エンボディエージェント内のタスク計画能力を向上する上で大きな可能性を秘めている。
我々は, LLMをベースとしたエンボディエージェントの挙動を, セーフプランベンチとアライメントのための統合フレームワークであるSafe-BeAlを提案する。
我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
- 参考スコア(独自算出の注目度): 13.225168384790257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit substantial promise in enhancing task-planning capabilities within embodied agents due to their advanced reasoning and comprehension. However, the systemic safety of these agents remains an underexplored frontier. In this study, we present Safe-BeAl, an integrated framework for the measurement (SafePlan-Bench) and alignment (Safe-Align) of LLM-based embodied agents' behaviors. SafePlan-Bench establishes a comprehensive benchmark for evaluating task-planning safety, encompassing 2,027 daily tasks and corresponding environments distributed across 8 distinct hazard categories (e.g., Fire Hazard). Our empirical analysis reveals that even in the absence of adversarial inputs or malicious intent, LLM-based agents can exhibit unsafe behaviors. To mitigate these hazards, we propose Safe-Align, a method designed to integrate physical-world safety knowledge into LLM-based embodied agents while maintaining task-specific performance. Experiments across a variety of settings demonstrate that Safe-BeAl provides comprehensive safety validation, improving safety by 8.55 - 15.22%, compared to embodied agents based on GPT-4, while ensuring successful task completion.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度な推論と理解のため、エンボディエージェント内でのタスク計画能力の向上に大きく貢献する。
しかし、これらのエージェントのシステム的安全性はいまだ未調査のフロンティアである。
本研究では, LLMをベースとしたエンボディエージェントの挙動を計測・アライメント(SafePlan-Bench)とアライメント(Safe-Align)に統合したSafe-BeAlを提案する。
SafePlan-Benchは、タスク計画の安全性を評価するための総合的なベンチマークを確立している。
我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
これらのハザードを緩和するために,タスク固有の性能を維持しつつ,LLMをベースとしたエンボディエージェントに物理世界の安全知識を統合する手法であるSafe-Alignを提案する。
さまざまな環境での実験では、Safe-BeAlは総合的な安全検証を提供し、安全を8.55~15.22%改善している。
関連論文リスト
- Safety Aware Task Planning via Large Language Models in Robotics [22.72668275829238]
本稿では,ロボット作業計画に安全意識を組み込むためのマルチLLMフレームワークであるSAFER(Safety-Aware Framework for Execution in Robotics)を紹介する。
本フレームワークは, 複数段階の安全フィードバックを統合し, リアルタイムリスク評価, プロアクティブエラー訂正, 透過的安全性評価を実現している。
論文 参考訳(メタデータ) (2025-03-19T21:41:10Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration [0.3222802562733787]
AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。
エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。
フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
論文 参考訳(メタデータ) (2025-02-13T23:00:33Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
既存のベンチマークは主に重要な安全リスクを見落とし、パフォーマンスの計画に集中しています。
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを提案する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な、多種多様で高品質なデータセット、(2)低レベルコントローラを備えた普遍的な実施環境であるSafeAgentEnvは、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートし、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法である。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。
本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。