Fugu-MT 論文翻訳(概要): LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics

論文の概要: LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics

arxiv url: http://arxiv.org/abs/2507.03293v2
Date: Tue, 23 Sep 2025 04:36:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 16:16:25.701923
Title: LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics
Title（参考訳）: LogicGuard: 時間論理に基づく批判による身体的LLMエージェントの改善
Authors: Anand Gokhale, Vaibhav Srivastava, Francesco Bullo,
Abstract要約: 大規模言語モデル(LLM)はゼロショットと単一ステップの推論と意思決定の問題において有望であることを示している。 LogicGuardは,LLMアクターを軌跡レベルのLCM評論家に案内するモジュール型アクター・クリティックアーキテクチャである。我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
参考スコア（独自算出の注目度）: 3.3890411643175646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown promise in zero-shot and single step reasoning and decision making problems, but in long horizon sequential planning tasks, their errors compound, often leading to unreliable or inefficient behavior. We introduce LogicGuard, a modular actor-critic architecture in which an LLM actor is guided by a trajectory level LLM critic that communicates through Linear Temporal Logic (LTL). Our setup combines the reasoning strengths of language models with the guarantees of formal logic. The actor selects high-level actions from natural language observations, while the critic analyzes full trajectories and proposes new LTL constraints that shield the actor from future unsafe or inefficient behavior. LogicGuard supports both fixed safety rules and adaptive, learned constraints, and is model-agnostic: any LLM-based planner can serve as the actor, with LogicGuard acting as a logic-generating wrapper. We formalize planning as graph traversal under symbolic constraints, allowing LogicGuard to analyze failed or suboptimal trajectories and generate new temporal logic rules that improve future behavior. To demonstrate generality, we evaluate LogicGuard across two distinct settings: short-horizon general tasks and long-horizon specialist tasks. On the Behavior benchmark of 100 household tasks, LogicGuard increases task completion rates by 25% over a baseline InnerMonologue planner. On the Minecraft diamond-mining task, which is long-horizon and requires multiple interdependent subgoals, LogicGuard improves both efficiency and safety compared to SayCan and InnerMonologue. These results show that enabling LLMs to supervise each other through temporal logic yields more reliable, efficient and safe decision-making for both embodied agents.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ゼロショットと単一ステップの推論と意思決定の問題において有望であるが、長い水平方向の計画タスクでは、それらのエラーは複雑であり、しばしば信頼できない、あるいは非効率な振る舞いにつながる。本稿ではLLMアクターがLTL(Linear Temporal Logic)を介して通信する軌跡レベルのLLM批評家によってガイドされるモジュール型アクター批判アーキテクチャであるLogicGuardを紹介する。我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。アクターは、自然言語の観察からハイレベルなアクションを選択し、批評家は完全な軌跡を分析し、アクターが将来の安全でない、あるいは非効率な振る舞いから保護する新しいLTL制約を提案する。 LogicGuardは、固定された安全ルールと、学習された制約の両方をサポートし、モデルに依存しない: LLMベースのプランナはアクターとして機能し、LogicGuardはロジック生成ラッパーとして機能する。我々は,図形トラバーサルを図形トラバーサルとして定式化し,LogicGuardが失敗や最適でないトラジェクトリを解析し,将来の振る舞いを改善するための新しい時間論理ルールを生成する。汎用性を示すために,我々はLogicGuardを2つの異なる設定 – 短期的汎用タスクと長期的専門タスク – で評価した。 100の家庭用タスクの振舞いベンチマークでは、LogicGuardはベースラインのInnerMonologueプランナよりもタスク完了率を25%向上させる。長い水平で複数の相互依存サブゴールを必要とするMinecraftダイヤモンドマイニングタスクでは、LogicGuardはSayCanやInnerMonologueと比べて効率と安全性の両方を改善している。これらの結果から,LLMが時間論理によって相互に監視できることは,双方の具体的エージェントに対してより信頼性が高く,効率的かつ安全な意思決定をもたらすことが示唆された。

関連論文リスト

ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文参考訳（メタデータ） (2025-08-03T11:26:35Z)
Do LLMs Dream of Discrete Algorithms? [0.7646713951724011]
大規模言語モデル(LLM)は、人工知能の風景を急速に変化させてきた。確率的推論への依存は、厳密な論理的推論を必要とする領域における有効性を制限する。本稿では,論理ベースの推論モジュールでLLMを増強するニューロシンボリックアプローチを提案する。
論文参考訳（メタデータ） (2025-06-29T22:03:01Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文参考訳（メタデータ） (2024-10-03T04:34:04Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。 LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文参考訳（メタデータ） (2023-08-11T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。