Fugu-MT 論文翻訳(概要): Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation

論文の概要: Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation

arxiv url: http://arxiv.org/abs/2409.15658v2
Date: Thu, 13 Mar 2025 10:15:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.297128
Title: Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation
Title（参考訳）: 暗黙の論理的推論と幻覚緩和による長期的身体的計画
Authors: Siyuan Liu, Jiawei Du, Sicheng Xiang, Zibo Wang, Dingsheng Luo,
Abstract要約: 本稿では,RelePについて紹介する。 ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
参考スコア（独自算出の注目度）: 7.668848364013772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-horizon embodied planning underpins embodied AI. To accomplish long-horizon tasks, one of the most feasible ways is to decompose abstract instructions into a sequence of actionable steps. Foundation models still face logical errors and hallucinations in long-horizon planning, unless provided with highly relevant examples to the tasks. However, providing highly relevant examples for any random task is unpractical. Therefore, we present ReLEP, a novel framework for Real-time Long-horizon Embodied Planning. ReLEP can complete a wide range of long-horizon tasks without in-context examples by learning implicit logical inference through fine-tuning. The fine-tuned large vision-language model formulates plans as sequences of skill functions. These functions are selected from a carefully designed skill library. ReLEP is also equipped with a Memory module for plan and status recall, and a Robot Configuration module for versatility across robot types. In addition, we propose a data generation pipeline to tackle dataset scarcity. When constructing the dataset, we considered the implicit logical relationships, enabling the model to learn implicit logical relationships and dispel hallucinations. Through comprehensive evaluations across various long-horizon tasks, ReLEP demonstrates high success rates and compliance to execution even on unseen tasks and outperforms state-of-the-art baseline methods.
Abstract（参考訳）: ロングホライゾンは、AIを具現化するプランニング基盤を具現化した。長い水平タスクを達成するために、最も実現可能な方法の1つは、抽象的な命令を一連の実行可能なステップに分解することである。基礎モデルは、タスクに非常に関連する例を提供しない限り、長い水平計画において論理的な誤りや幻覚に直面している。しかし、任意のランダムなタスクに対して非常に関連性の高い例を提供するのは実践的ではない。そこで本稿では,RelePについて紹介する。 ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。微調整された大きな視覚言語モデルでは、プランをスキル機能のシーケンスとして定式化している。これらの機能は、慎重に設計されたスキルライブラリから選択される。 ReLEPはまた、計画とステータスリコールのためのメモリモジュールと、ロボットタイプ間の汎用性のためのRobot Configurationモジュールも備えている。さらに,データセットの不足に対処するデータ生成パイプラインを提案する。データセットを構築する際、暗黙的な論理的関係を考慮し、暗黙的な論理的関係を学習し、幻覚を追放することを可能にする。様々な長期タスクに対する総合的な評価を通じて、ReLEPは、目に見えないタスクでも高い成功率と実行コンプライアンスを示し、最先端のベースラインメソッドより優れています。

関連論文リスト

Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback [12.600525101342026]
本稿では,言語条件のロングホライズンロボット操作のためのデータに依存しないフレームワークであるDAHLIAを紹介する。 LLMは、リアルタイムタスク計画と実行のための大きな言語モデルである。本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
論文参考訳（メタデータ） (2025-03-27T20:32:58Z)
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。 Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。 We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文参考訳（メタデータ） (2025-03-12T17:40:52Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks [12.239868705130178]
線形時間論理(LTL)によって規定された命令に基づいて計画の生成と更新を行うデータ駆動階層型フレームワークを提案する。提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。バッチ生成における行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を向上する。
論文参考訳（メタデータ） (2024-10-03T11:10:37Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks [13.29302304547683]
自然言語処理における大規模言語モデル(LLM)は、複雑なロボット計画にLLMを使うことに刺激を与えている。本稿では,日常業務の長期的決定を具体化するRoboGPTエージェントを提案する。提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。
論文参考訳（メタデータ） (2023-11-27T09:20:23Z)
Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文参考訳（メタデータ） (2023-10-03T17:59:46Z)
Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文参考訳（メタデータ） (2023-09-15T17:44:05Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文参考訳（メタデータ） (2023-05-12T18:14:32Z)
Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。 ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文参考訳（メタデータ） (2023-03-16T20:09:47Z)
A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文参考訳（メタデータ） (2023-03-01T11:54:22Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)
Long-Horizon Planning and Execution with Functional Object-Oriented Networks [79.94575713911189]
タスク計画と実行のためのFOONとしてオブジェクトレベルの知識を活用するというアイデアを紹介します。提案手法では,FOONをPDDLに自動変換し,市販のプランナ,アクションコンテキスト,ロボットスキルを活用する。我々はCoppeliaSimの長期タスクに対するアプローチを実証し、学習されたアクションコンテキストを、これまで見たことのないシナリオにどのように拡張できるかを示す。
論文参考訳（メタデータ） (2022-07-12T19:29:35Z)
Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文参考訳（メタデータ） (2021-09-23T07:18:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。