論文の概要: Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07500v1
- Date: Mon, 12 May 2025 12:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.374623
- Title: Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models
- Title(参考訳): 推論とナビゲートの学習:大規模言語モデルを用いたパラメータ効率的な行動計画
- Authors: Bahram Mohammadi, Ehsan Abbasnejad, Yuankai Qi, Qi Wu, Anton Van Den Hengel, Javen Qinfeng Shi,
- Abstract要約: 本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 63.765846080050906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remote embodied referring expression (REVERIE) task requires an agent to navigate through complex indoor environments and localize a remote object specified by high-level instructions, such as "bring me a spoon", without pre-exploration. Hence, an efficient navigation plan is essential for the final success. This paper proposes a novel parameter-efficient action planner using large language models (PEAP-LLM) to generate a single-step instruction at each location. The proposed model consists of two modules, LLM goal planner (LGP) and LoRA action planner (LAP). Initially, LGP extracts the goal-oriented plan from REVERIE instructions, including the target object and room. Then, LAP generates a single-step instruction with the goal-oriented plan, high-level instruction, and current visual observation as input. PEAP-LLM enables the embodied agent to interact with LAP as the path planner on the fly. A simple direct application of LLMs hardly achieves good performance. Also, existing hard-prompt-based methods are error-prone in complicated scenarios and need human intervention. To address these issues and prevent the LLM from generating hallucinations and biased information, we propose a novel two-stage method for fine-tuning the LLM, consisting of supervised fine-tuning (STF) and direct preference optimization (DPO). SFT improves the quality of generated instructions, while DPO utilizes environmental feedback. Experimental results show the superiority of our proposed model on REVERIE compared to the previous state-of-the-art.
- Abstract(参考訳): リモートエンボディド参照式(REVERIE)タスクでは、エージェントが複雑な屋内環境をナビゲートし、事前探索なしで"スプーンを作れ"といった高レベルの命令で指定されたリモートオブジェクトをローカライズする必要がある。
したがって、最終的な成功には効率的な航法計画が不可欠である。
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
提案したモデルは、LSMゴールプランナー(LGP)とLoRAアクションプランナー(LAP)の2つのモジュールで構成されている。
当初、LGPはターゲットオブジェクトと部屋を含むREVERIE命令から目標指向のプランを抽出した。
そして、LAPは、目標指向プラン、ハイレベル命令、現在の視覚観察を入力として、単一ステップの命令を生成する。
PEAP-LLMは、組み込まれたエージェントが、飛行中のパスプランナーとしてLPPと相互作用することを可能にする。
LLMの簡単な直接適用はほとんど性能が良くない。
また、既存のハードプロンプトベースの手法は複雑なシナリオでエラーを起こし、人間の介入を必要とする。
これらの問題に対処し、LLMが幻覚やバイアス情報を生成するのを防ぐために、教師付き微調整(STF)と直接選好最適化(DPO)からなる新しい2段階微調整法を提案する。
SFTは生成した命令の品質を改善し、DPOは環境フィードバックを利用する。
実験結果から,提案したREVERIEモデルの方が先行技術よりも優れていることが示された。
関連論文リスト
- From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。
本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。
具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文 参考訳(メタデータ) (2024-03-18T08:03:47Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。