論文の概要: MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning
- arxiv url: http://arxiv.org/abs/2511.21460v1
- Date: Wed, 26 Nov 2025 14:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.148052
- Title: MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning
- Title(参考訳): MADRA:リスクを意識した身体的計画に関するマルチエージェント議論
- Authors: Junjian Wang, Lidan Zhao, Xi Sheryl Zhang,
- Abstract要約: 既存の方法は、選好調整トレーニングや、単一エージェントの安全プロンプトを使用する場合のオーバーリジェクションによって、高い計算コストに悩まされることが多い。
トレーニング不要なマルチエージェント議論リスクアセスメントフレームワークMADRAを提案する。
私たちの仕事は、信頼できるエンボディエージェントを構築するためのスケーラブルでモデルに依存しないソリューションを提供します。
- 参考スコア(独自算出の注目度): 3.058137447286947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety of embodied AI agents during task planning is critical for real-world deployment, especially in household environments where dangerous instructions pose significant risks. Existing methods often suffer from either high computational costs due to preference alignment training or over-rejection when using single-agent safety prompts. To address these limitations, we propose MADRA, a training-free Multi-Agent Debate Risk Assessment framework that leverages collective reasoning to enhance safety awareness without sacrificing task performance. MADRA employs multiple LLM-based agents to debate the safety of a given instruction, guided by a critical evaluator that scores responses based on logical soundness, risk identification, evidence quality, and clarity. Through iterative deliberation and consensus voting, MADRA significantly reduces false rejections while maintaining high sensitivity to dangerous tasks. Additionally, we introduce a hierarchical cognitive collaborative planning framework that integrates safety, memory, planning, and self-evolution mechanisms to improve task success rates through continuous learning. We also contribute SafeAware-VH, a benchmark dataset for safety-aware task planning in VirtualHome, containing 800 annotated instructions. Extensive experiments on AI2-THOR and VirtualHome demonstrate that our approach achieves over 90% rejection of unsafe tasks while ensuring that safe-task rejection is low, outperforming existing methods in both safety and execution efficiency. Our work provides a scalable, model-agnostic solution for building trustworthy embodied agents.
- Abstract(参考訳): タスクプランニング中に組み込まれたAIエージェントの安全性を確保することは、特に危険な指示が重大なリスクをもたらす家庭環境において、現実世界のデプロイメントにおいて重要である。
既存の方法は、選好調整トレーニングや、単一エージェントの安全プロンプトを使用する場合のオーバーリジェクションによって、高い計算コストに悩まされることが多い。
これらの制約に対処するため,タスク性能を犠牲にすることなく,集団推論を利用して安全意識を高める,トレーニングフリーのマルチエージェント・ディベートリスクアセスメントフレームワークMADRAを提案する。
MADRAは、論理的健全性、リスク識別、エビデンスの品質、明確性に基づいて応答をスコアする批判的評価器によって導かれる、与えられた命令の安全性を議論するために、複数のLLMベースのエージェントを使用している。
反復的な審議と合意投票を通じて、MADRAは危険なタスクに対する高い感度を維持しながら、偽の拒絶を著しく低減する。
さらに、安全、記憶、計画、自己進化のメカニズムを統合し、継続的な学習を通じてタスクの成功率を改善する階層的な認知協調計画フレームワークを導入します。
また,VirtualHomeのセーフアウェアタスク計画のためのベンチマークデータセットであるSafeAware-VHにも800の注釈付き命令が含まれている。
AI2-THORとVirtualHomeに関する大規模な実験は、我々のアプローチが安全でないタスクの90%以上を拒否し、安全タスクの拒否が低いことを保証し、安全性と実行効率の両方において既存の手法よりも優れていることを示した。
私たちの仕事は、信頼できるエンボディエージェントを構築するためのスケーラブルでモデルに依存しないソリューションを提供します。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Safety Aware Task Planning via Large Language Models in Robotics [22.72668275829238]
本稿では,ロボット作業計画に安全意識を組み込むためのマルチLLMフレームワークであるSAFER(Safety-Aware Framework for Execution in Robotics)を紹介する。
本フレームワークは, 複数段階の安全フィードバックを統合し, リアルタイムリスク評価, プロアクティブエラー訂正, 透過的安全性評価を実現している。
論文 参考訳(メタデータ) (2025-03-19T21:41:10Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。