論文の概要: VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots
- arxiv url: http://arxiv.org/abs/2507.05118v1
- Date: Mon, 07 Jul 2025 15:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.483494
- Title: VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots
- Title(参考訳): VerifyLLM:LLMによるロボットの事前実行タスク計画検証
- Authors: Danil S. Grigorev, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。
このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of robotics, researchers face a critical challenge in ensuring reliable and efficient task planning. Verifying high-level task plans before execution significantly reduces errors and enhance the overall performance of these systems. In this paper, we propose an architecture for automatically verifying high-level task plans before their execution in simulator or real-world environments. Leveraging Large Language Models (LLMs), our approach consists of two key steps: first, the conversion of natural language instructions into Linear Temporal Logic (LTL), followed by a comprehensive analysis of action sequences. The module uses the reasoning capabilities of the LLM to evaluate logical coherence and identify potential gaps in the plan. Rigorous testing on datasets of varying complexity demonstrates the broad applicability of the module to household tasks. We contribute to improving the reliability and efficiency of task planning and addresses the critical need for robust pre-execution verification in autonomous systems. The code is available at https://verifyllm.github.io.
- Abstract(参考訳): ロボット工学の分野では、研究者は信頼性と効率的なタスクプランニングを確実にする上で重要な課題に直面している。
実行前に高いレベルのタスク計画を検証するとエラーが大幅に減少し、システム全体のパフォーマンスが向上する。
本稿では,シミュレータや実環境環境での実行前に,ハイレベルなタスク計画を自動的に検証するアーキテクチャを提案する。
まず,LTL(Linear Temporal Logic)に自然言語命令を変換し,次にアクションシーケンスの包括的解析を行う。
このモジュールはLSMの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
様々な複雑さのデータセットに対する厳密なテストは、モジュールが家庭用タスクに広く適用可能であることを示す。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
コードはhttps://verifyllm.github.ioで公開されている。
関連論文リスト
- A Temporal Planning Framework for Multi-Agent Systems via LLM-Aided Knowledge Base Management [5.548477348501636]
本稿では,大規模言語モデル(LLM)とPrologベースの知識管理とマルチロボットタスクの計画を統合したPLANTORという新しいフレームワークを提案する。
その結果,LLMは人間からのフィードバックの少ない正確な知識ベースを生成でき,Prologは形式的正当性と説明可能性を保証することがわかった。
このアプローチは、柔軟でスケーラブルで人間に理解可能な計画を必要とする高度なロボティクスタスクのためのLLM統合の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-26T13:51:28Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。