論文の概要: Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2409.15658v2
- Date: Thu, 13 Mar 2025 10:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:23.872680
- Title: Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation
- Title(参考訳): 暗黙の論理的推論と幻覚緩和による長期的身体的計画
- Authors: Siyuan Liu, Jiawei Du, Sicheng Xiang, Zibo Wang, Dingsheng Luo,
- Abstract要約: 本稿では,RelePについて紹介する。
ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
- 参考スコア(独自算出の注目度): 7.668848364013772
- License:
- Abstract: Long-horizon embodied planning underpins embodied AI. To accomplish long-horizon tasks, one of the most feasible ways is to decompose abstract instructions into a sequence of actionable steps. Foundation models still face logical errors and hallucinations in long-horizon planning, unless provided with highly relevant examples to the tasks. However, providing highly relevant examples for any random task is unpractical. Therefore, we present ReLEP, a novel framework for Real-time Long-horizon Embodied Planning. ReLEP can complete a wide range of long-horizon tasks without in-context examples by learning implicit logical inference through fine-tuning. The fine-tuned large vision-language model formulates plans as sequences of skill functions. These functions are selected from a carefully designed skill library. ReLEP is also equipped with a Memory module for plan and status recall, and a Robot Configuration module for versatility across robot types. In addition, we propose a data generation pipeline to tackle dataset scarcity. When constructing the dataset, we considered the implicit logical relationships, enabling the model to learn implicit logical relationships and dispel hallucinations. Through comprehensive evaluations across various long-horizon tasks, ReLEP demonstrates high success rates and compliance to execution even on unseen tasks and outperforms state-of-the-art baseline methods.
- Abstract(参考訳): ロングホライゾンは、AIを具現化するプランニング基盤を具現化した。
長い水平タスクを達成するために、最も実現可能な方法の1つは、抽象的な命令を一連の実行可能なステップに分解することである。
基礎モデルは、タスクに非常に関連する例を提供しない限り、長い水平計画において論理的な誤りや幻覚に直面している。
しかし、任意のランダムなタスクに対して非常に関連性の高い例を提供するのは実践的ではない。
そこで本稿では,RelePについて紹介する。
ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
微調整された大きな視覚言語モデルでは、プランをスキル機能のシーケンスとして定式化している。
これらの機能は、慎重に設計されたスキルライブラリから選択される。
ReLEPはまた、計画とステータスリコールのためのメモリモジュールと、ロボットタイプ間の汎用性のためのRobot Configurationモジュールも備えている。
さらに,データセットの不足に対処するデータ生成パイプラインを提案する。
データセットを構築する際、暗黙的な論理的関係を考慮し、暗黙的な論理的関係を学習し、幻覚を追放することを可能にする。
様々な長期タスクに対する総合的な評価を通じて、ReLEPは、目に見えないタスクでも高い成功率と実行コンプライアンスを示し、最先端のベースラインメソッドより優れています。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks [13.29302304547683]
自然言語処理における大規模言語モデル(LLM)は、複雑なロボット計画にLLMを使うことに刺激を与えている。
本稿では,日常業務の長期的決定を具体化するRoboGPTエージェントを提案する。
提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-11-27T09:20:23Z) - Interactive Task Planning with Language Models [89.5839216871244]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
言語モデルを用いた対話型タスクプランニングを実現するための,高レベルプランニングと低レベルスキル実行を併用したシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。