Fugu-MT 論文翻訳(概要): LTLCrit: A Temporal Logic-based LLM Critic for Safe and Efficient Embodied Agents

論文の概要: LTLCrit: A Temporal Logic-based LLM Critic for Safe and Efficient Embodied Agents

arxiv url: http://arxiv.org/abs/2507.03293v1
Date: Fri, 04 Jul 2025 04:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.661305
Title: LTLCrit: A Temporal Logic-based LLM Critic for Safe and Efficient Embodied Agents
Title（参考訳）: LTLCrit: 安全で効率的な人工呼吸器のための時間論理に基づくLCM批判
Authors: Anand Gokhale, Vaibhav Srivastava, Francesco Bullo,
Abstract要約: 大規模言語モデル(LLM)は、静的環境におけるタスクの推論と一般的な意思決定において有望であることを示す。本稿では,LLM アクターを軌跡レベルの LLM 評論家である byCrit に案内するモジュラーアクター批判アーキテクチャを提案する。我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
参考スコア（独自算出の注目度）: 5.299803738642663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated promise in reasoning tasks and general decision-making in static environments. In long-term planning tasks, however, errors tend to accumulate, often leading to unsafe or inefficient behavior, limiting their use in general-purpose settings. We propose a modular actor-critic architecture in which an LLM actor is guided by LTLCrit, a trajectory-level LLM critic that communicates via linear temporal logic (LTL). Our setup combines the reasoning strengths of language models with the guarantees of formal logic. The actor selects high-level actions from natural language observations, while the critic analyzes full trajectories and proposes new LTL constraints that shield the actor from future unsafe or inefficient behavior. The architecture supports both fixed, hand-specified safety constraints and adaptive, learned soft constraints that promote long-term efficiency. Our architecture is model-agnostic: any LLM-based planner can serve as the actor, and LTLCrit serves as a logic-generating wrapper. We formalize planning as graph traversal under symbolic constraints, allowing LTLCrit to analyze failed or suboptimal trajectories and generate new temporal logic rules that improve future behavior. We evaluate our system on the Minecraft diamond-mining benchmark, achieving 100% completion rates and improving efficiency compared to baseline LLM planners. Our results suggest that enabling LLMs to supervise each other through logic is a powerful and flexible paradigm for safe, generalizable decision making.
Abstract（参考訳）: 大規模言語モデル(LLM)は、静的環境におけるタスクの推論と一般的な意思決定において有望であることを示す。しかし、長期計画タスクでは、エラーは蓄積する傾向にあり、多くの場合、安全でない、あるいは非効率な振る舞いを引き起こし、汎用的な設定での使用を制限する。線形時間論理(LTL)を介して通信する軌道レベルのLLM批評家であるLTLCritにより、LLMアクターを誘導するモジュラーアクター批判アーキテクチャを提案する。我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。アクターは、自然言語の観察からハイレベルなアクションを選択し、批評家は完全な軌跡を分析し、アクターが将来の安全でない、あるいは非効率な振る舞いから保護する新しいLTL制約を提案する。このアーキテクチャは、固定された手動の安全制約と、長期的効率を促進するための学習されたソフト制約の両方をサポートする。 LLMベースのプランナーはアクターとして機能し、LTLCritはロジック生成ラッパーとして機能します。我々は,LTLCritが故障や最適下方軌道を解析し,将来の行動を改善するための新たな時間論理ルールを生成することを,象徴的制約の下でグラフトラバースとして計画を定式化する。本研究では,マインクラフトダイアモンドマイニングベンチマークを用いて本システムの評価を行い,100%の完成率を実現し,LLMプランナと比較して効率を向上した。この結果から,LLMが論理的に相互に監督可能であることは,安全で一般化可能な意思決定のための強力で柔軟なパラダイムであることが示唆された。

関連論文リスト

ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文参考訳（メタデータ） (2025-08-03T11:26:35Z)
Do LLMs Dream of Discrete Algorithms? [0.7646713951724011]
大規模言語モデル(LLM)は、人工知能の風景を急速に変化させてきた。確率的推論への依存は、厳密な論理的推論を必要とする領域における有効性を制限する。本稿では,論理ベースの推論モジュールでLLMを増強するニューロシンボリックアプローチを提案する。
論文参考訳（メタデータ） (2025-06-29T22:03:01Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文参考訳（メタデータ） (2024-10-03T04:34:04Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。 LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文参考訳（メタデータ） (2023-08-11T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。