論文の概要: SENTINEL: A Multi-Level Formal Framework for Safety Evaluation of LLM-based Embodied Agents
- arxiv url: http://arxiv.org/abs/2510.12985v1
- Date: Tue, 14 Oct 2025 20:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.420291
- Title: SENTINEL: A Multi-Level Formal Framework for Safety Evaluation of LLM-based Embodied Agents
- Title(参考訳): SENTINEL : LLMをベースとした人工呼吸器の安全性評価のための多層フォーマルフレームワーク
- Authors: Simon Sinong Zhan, Yao Liu, Philip Wang, Zinan Wang, Qineng Wang, Zhian Ruan, Xiangyu Shi, Xinyu Cao, Frank Yang, Kangrui Wang, Huajie Shao, Manling Li, Qi Zhu,
- Abstract要約: 本稿では,Large Language Model(LLM)ベースのエンボディエージェントの物理的安全性を公式に評価する最初のフレームワークであるSentinelを紹介する。
我々は、VirtualHomeとALFREDにSentinelを適用し、多様な安全性要件に対して複数のLDMベースのエンボディエージェントを正式に評価する。
- 参考スコア(独自算出の注目度): 25.567593463613388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Sentinel, the first framework for formally evaluating the physical safety of Large Language Model(LLM-based) embodied agents across the semantic, plan, and trajectory levels. Unlike prior methods that rely on heuristic rules or subjective LLM judgments, Sentinel grounds practical safety requirements in formal temporal logic (TL) semantics that can precisely specify state invariants, temporal dependencies, and timing constraints. It then employs a multi-level verification pipeline where (i) at the semantic level, intuitive natural language safety requirements are formalized into TL formulas and the LLM agent's understanding of these requirements is probed for alignment with the TL formulas; (ii) at the plan level, high-level action plans and subgoals generated by the LLM agent are verified against the TL formulas to detect unsafe plans before execution; and (iii) at the trajectory level, multiple execution trajectories are merged into a computation tree and efficiently verified against physically-detailed TL specifications for a final safety check. We apply Sentinel in VirtualHome and ALFRED, and formally evaluate multiple LLM-based embodied agents against diverse safety requirements. Our experiments show that by grounding physical safety in temporal logic and applying verification methods across multiple levels, Sentinel provides a rigorous foundation for systematically evaluating LLM-based embodied agents in physical environments, exposing safety violations overlooked by previous methods and offering insights into their failure modes.
- Abstract(参考訳): 本稿では,Large Language Model(LLM-based)エンボディエージェントの物理的安全性を,セマンティック,プラン,トラジェクトリレベルにわたって公式に評価する最初のフレームワークであるSentinelを紹介する。
ヒューリスティックなルールや主観的なLLM判断に依存する従来の方法とは異なり、Sentinelは、状態不変性、時間依存、タイミング制約を正確に指定できる形式的時間論理(TL)セマンティクスにおいて、実用的な安全性要件を基礎としている。
次に、マルチレベル検証パイプラインを使用します。
i) 意味レベルでは、直感的な自然言語の安全性要件をTL式に定式化し、これらの要件に対するLLMエージェントの理解をTL式に適合させるために調査する。
2)計画レベルでは、LSMエージェントによって生成された高レベルな行動計画及びサブゴールをTL式に対して検証し、実行前に安全でない計画を検出する。
三) 軌道レベルでは、複数の実行軌跡を計算木にマージし、最終安全チェックのための物理詳細TL仕様に対して効率よく検証する。
我々は、VirtualHomeとALFREDにSentinelを適用し、多様な安全性要件に対して複数のLDMベースのエンボディエージェントを正式に評価する。
実験により, 時間論理の物理的安全性を基礎として, 複数レベルにわたる検証手法を適用することにより, 物理環境におけるLCMをベースとしたエンボディエージェントを体系的に評価し, 従来手法で見過ごされていた安全違反を暴露し, 障害モードに対する洞察を提供する, 厳密な基盤を提供することができた。
関連論文リスト
- TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code [46.747768845221735]
大規模言語モデル(LLM)は、様々なプログラミング言語のコード生成タスクにおいて顕著な習熟度を示している。
それらのアウトプットには微妙だが重要な脆弱性があり、セキュリティに敏感なシステムやミッションクリティカルなシステムにデプロイすると重大なリスクが生じる。
本稿では,LLM生成コードのセキュリティとロバスト性を高めるために設計されたエージェントAIフレームワークであるTypePilotを紹介する。
論文 参考訳(メタデータ) (2025-10-13T08:44:01Z) - Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling [1.0266286487433585]
新しい大規模言語モデル(LLM)アーキテクチャを採用する前に、脆弱性を正確に理解することが重要である。
既存の評価を信頼することは困難であり、しばしばLLMから結論を導き出す。
インジェクション攻撃の迅速化を目的としたLCM脆弱性評価のための,原則的かつ実用的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T09:22:22Z) - Evaluating LLM Generated Detection Rules in Cybersecurity [0.3469154896502103]
このベンチマークでは、LCM生成したセキュリティルールの有効性を測定するために、ホールトアウトセットベースの方法論を採用している。
専門家がセキュリティルールを評価する方法に触発された3つの重要な指標を提供する。
この方法論は、Sublime Securityの検知チームとSublime SecurityのAutomated Detection Engineerによって書かれたルールを使って説明されている。
論文 参考訳(メタデータ) (2025-09-20T17:21:51Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [41.000042817113645]
sysは、トレーニングなし、メモリ拡張推論フレームワークである。
sysは、LLMが適応的に構造化された意味的特徴を抽出することで経験記憶を構築する。
Dataは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making [31.555271917529872]
本研究では,大規模言語モデル(LLM)の身体的安全性を体系的に評価するフレームワークであるSAFELを紹介する。
EMBODYGUARD は PDDL をベースとしたベンチマークであり,942 の LLM 生成シナリオで過度に悪意のある命令と文脈的に有害な命令の両方をカバーしている。
本稿は,現在のLLMにおける限界点を強調し,よりターゲットを絞った,よりモジュール化された,安全な具体的推論の基盤を提供する。
論文 参考訳(メタデータ) (2025-05-26T13:01:14Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。