論文の概要: Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI
- arxiv url: http://arxiv.org/abs/2602.08373v1
- Date: Mon, 09 Feb 2026 08:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.12372
- Title: Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI
- Title(参考訳): 検証可能な論理のグラウンディングジェネレーティブプランナー:信頼できるエンボディードAIのためのハイブリッドアーキテクチャ
- Authors: Feiyu Wu, Xu Zheng, Yue Qu, Zhuocheng Wang, Zicheng Feng, Hui Li,
- Abstract要約: 大規模言語モデル(LLM)は、AIを具現化するためのプランナーとして有望であるが、その性質には正式な推論がない。
本稿では、受動的安全ゲートキーピングからアクティブなコラボレーションへパラダイムをシフトさせる、ニューロシンボリックなアーキテクチャである、検証可能な反復リファインメントフレームワーク(VIRF)を紹介する。
- 参考スコア(独自算出の注目度): 6.5470636478144675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show promise as planners for embodied AI, but their stochastic nature lacks formal reasoning, preventing strict safety guarantees for physical deployment. Current approaches often rely on unreliable LLMs for safety checks or simply reject unsafe plans without offering repairs. We introduce the Verifiable Iterative Refinement Framework (VIRF), a neuro-symbolic architecture that shifts the paradigm from passive safety gatekeeping to active collaboration. Our core contribution is a tutor-apprentice dialogue where a deterministic Logic Tutor, grounded in a formal safety ontology, provides causal and pedagogical feedback to an LLM planner. This enables intelligent plan repairs rather than mere avoidance. We also introduce a scalable knowledge acquisition pipeline that synthesizes safety knowledge bases from real-world documents, correcting blind spots in existing benchmarks. In challenging home safety tasks, VIRF achieves a perfect 0 percent Hazardous Action Rate (HAR) and a 77.3 percent Goal-Condition Rate (GCR), which is the highest among all baselines. It is highly efficient, requiring only 1.1 correction iterations on average. VIRF demonstrates a principled pathway toward building fundamentally trustworthy and verifiably safe embodied agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIを具現化するためのプランナーとして有望であるが、その確率的な性質には正式な推論がなく、物理的なデプロイメントに対する厳格な安全保証を妨げている。
現在のアプローチでは、安全チェックのために信頼性の低いLLMを頼りにしたり、修理を伴わずに安全でない計画を拒否することが多い。
本稿では、受動的安全ゲートキーピングからアクティブなコラボレーションへパラダイムをシフトさせる、ニューロシンボリックなアーキテクチャである、検証可能な反復リファインメントフレームワーク(VIRF)を紹介する。
我々の中核的な貢献は、フォーマルな安全オントロジーに基づく決定論的論理チュータが、LCMプランナに因果的および教育的なフィードバックを提供する、教師-承認対話である。
これにより、単なる回避ではなく、インテリジェントな計画修正が可能になる。
また、現実世界のドキュメントから安全知識ベースを合成し、既存のベンチマークの盲点を修正する、スケーラブルな知識獲得パイプラインも導入しています。
家庭の安全上の課題において、VIRFは完全な0パーセントの有害行動率(HAR)と77.3%のゴール・コンディション・レート(GCR)を達成している。
非常に効率的で、平均1.1回の修正しか必要としない。
VIRFは、基本的に信頼性が高く、検証可能な安全なエンボディエージェントを構築するための、原則化された経路を示す。
関連論文リスト
- RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [12.836334933428738]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。