論文の概要: LTLCrit: A Temporal Logic-based LLM Critic for Safe and Efficient Embodied Agents
- arxiv url: http://arxiv.org/abs/2507.03293v1
- Date: Fri, 04 Jul 2025 04:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.661305
- Title: LTLCrit: A Temporal Logic-based LLM Critic for Safe and Efficient Embodied Agents
- Title(参考訳): LTLCrit: 安全で効率的な人工呼吸器のための時間論理に基づくLCM批判
- Authors: Anand Gokhale, Vaibhav Srivastava, Francesco Bullo,
- Abstract要約: 大規模言語モデル(LLM)は、静的環境におけるタスクの推論と一般的な意思決定において有望であることを示す。
本稿では,LLM アクターを軌跡レベルの LLM 評論家である byCrit に案内するモジュラーアクター批判アーキテクチャを提案する。
我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
- 参考スコア(独自算出の注目度): 5.299803738642663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated promise in reasoning tasks and general decision-making in static environments. In long-term planning tasks, however, errors tend to accumulate, often leading to unsafe or inefficient behavior, limiting their use in general-purpose settings. We propose a modular actor-critic architecture in which an LLM actor is guided by LTLCrit, a trajectory-level LLM critic that communicates via linear temporal logic (LTL). Our setup combines the reasoning strengths of language models with the guarantees of formal logic. The actor selects high-level actions from natural language observations, while the critic analyzes full trajectories and proposes new LTL constraints that shield the actor from future unsafe or inefficient behavior. The architecture supports both fixed, hand-specified safety constraints and adaptive, learned soft constraints that promote long-term efficiency. Our architecture is model-agnostic: any LLM-based planner can serve as the actor, and LTLCrit serves as a logic-generating wrapper. We formalize planning as graph traversal under symbolic constraints, allowing LTLCrit to analyze failed or suboptimal trajectories and generate new temporal logic rules that improve future behavior. We evaluate our system on the Minecraft diamond-mining benchmark, achieving 100% completion rates and improving efficiency compared to baseline LLM planners. Our results suggest that enabling LLMs to supervise each other through logic is a powerful and flexible paradigm for safe, generalizable decision making.
- Abstract(参考訳): 大規模言語モデル(LLM)は、静的環境におけるタスクの推論と一般的な意思決定において有望であることを示す。
しかし、長期計画タスクでは、エラーは蓄積する傾向にあり、多くの場合、安全でない、あるいは非効率な振る舞いを引き起こし、汎用的な設定での使用を制限する。
線形時間論理(LTL)を介して通信する軌道レベルのLLM批評家であるLTLCritにより、LLMアクターを誘導するモジュラーアクター批判アーキテクチャを提案する。
我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
アクターは、自然言語の観察からハイレベルなアクションを選択し、批評家は完全な軌跡を分析し、アクターが将来の安全でない、あるいは非効率な振る舞いから保護する新しいLTL制約を提案する。
このアーキテクチャは、固定された手動の安全制約と、長期的効率を促進するための学習されたソフト制約の両方をサポートする。
LLMベースのプランナーはアクターとして機能し、LTLCritはロジック生成ラッパーとして機能します。
我々は,LTLCritが故障や最適下方軌道を解析し,将来の行動を改善するための新たな時間論理ルールを生成することを,象徴的制約の下でグラフトラバースとして計画を定式化する。
本研究では,マインクラフトダイアモンドマイニングベンチマークを用いて本システムの評価を行い,100%の完成率を実現し,LLMプランナと比較して効率を向上した。
この結果から,LLMが論理的に相互に監督可能であることは,安全で一般化可能な意思決定のための強力で柔軟なパラダイムであることが示唆された。
関連論文リスト
- Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。