論文の概要: MaP-AVR: A Meta-Action Planner for Agents Leveraging Vision Language Models and Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2512.19453v1
- Date: Mon, 22 Dec 2025 14:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.470325
- Title: MaP-AVR: A Meta-Action Planner for Agents Leveraging Vision Language Models and Retrieval-Augmented Generation
- Title(参考訳): MaP-AVR: 視覚言語モデルと検索生成を活用するエージェントのためのメタアクションプランナ
- Authors: Zhenglong Guo, Yiming Zhao, Feng Jiang, Heng Jin, Zongbao Feng, Jianbin Zhou, Siyuan Xu,
- Abstract要約: 複雑な日々のタスクを管理するように設計されたロボットAIシステムは、ハイレベルなタスクを理解し分解するためのタスクプランナーに依存している。
本稿は、計画されたスキルセットを定義することが同様に重要である、と論じる。
日々の環境の複雑さに対処するためには、スキルセットは高度な一般化能力を持つべきである。
- 参考スコア(独自算出の注目度): 18.84633713315585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied robotic AI systems designed to manage complex daily tasks rely on a task planner to understand and decompose high-level tasks. While most research focuses on enhancing the task-understanding abilities of LLMs/VLMs through fine-tuning or chain-of-thought prompting, this paper argues that defining the planned skill set is equally crucial. To handle the complexity of daily environments, the skill set should possess a high degree of generalization ability. Empirically, more abstract expressions tend to be more generalizable. Therefore, we propose to abstract the planned result as a set of meta-actions. Each meta-action comprises three components: {move/rotate, end-effector status change, relationship with the environment}. This abstraction replaces human-centric concepts, such as grasping or pushing, with the robot's intrinsic functionalities. As a result, the planned outcomes align seamlessly with the complete range of actions that the robot is capable of performing. Furthermore, to ensure that the LLM/VLM accurately produces the desired meta-action format, we employ the Retrieval-Augmented Generation (RAG) technique, which leverages a database of human-annotated planning demonstrations to facilitate in-context learning. As the system successfully completes more tasks, the database will self-augment to continue supporting diversity. The meta-action set and its integration with RAG are two novel contributions of our planner, denoted as MaP-AVR, the meta-action planner for agents composed of VLM and RAG. To validate its efficacy, we design experiments using GPT-4o as the pre-trained LLM/VLM model and OmniGibson as our robotic platform. Our approach demonstrates promising performance compared to the current state-of-the-art method. Project page: https://map-avr.github.io/.
- Abstract(参考訳): 複雑な日々のタスクを管理するように設計されたロボットAIシステムは、ハイレベルなタスクを理解し分解するためのタスクプランナーに依存している。
多くの研究は、細調整やチェーン・オブ・シント・プロンプトによるLLM/VLMのタスク理解能力の向上に重点を置いているが、この論文では、計画されたスキルセットを定義することが同様に重要であると論じている。
日々の環境の複雑さに対処するためには、スキルセットは高度な一般化能力を持つべきである。
経験的に、より抽象的な表現はより一般化できる傾向がある。
そこで本研究では,計画された結果をメタアクションの集合として抽象化することを提案する。
各メタアクションは、{move/rotate, end-effector status change, relationship with the environment}の3つのコンポーネントから構成される。
この抽象化は、つかみや押すといった人間中心の概念を、ロボットの本質的な機能に置き換える。
その結果、計画された結果は、ロボットが実行可能な完全な動作範囲とシームレスに整合する。
さらに, LLM/VLMが所望のメタアクションフォーマットを正確に生成することを保証するために, 人間が記述した計画実証のデータベースを活用して, 文脈内学習を容易にするRetrieval-Augmented Generation (RAG) 技術を用いる。
システムがより多くのタスクを完了すると、データベースは自己拡張して多様性をサポートし続ける。
メタアクションセットとRAGとの統合は、VLMとRAGからなるエージェントのためのメタアクションプランナーであるMaP-AVRと呼ばれる、我々のプランナーの2つの新しいコントリビューションである。
GPT-4oをトレーニング済みLLM/VLMモデルとし,OmniGibsonをロボットプラットフォームとして設計した。
提案手法は,現在の最先端手法と比較して有望な性能を示す。
プロジェクトページ: https://map-avr.github.io/.com
関連論文リスト
- REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World [18.44952696124717]
RoboMatrixは、オープンソースの環境でのスケーラブルなロボットタスク計画と実行のために設計された、スキル中心の階層型フレームワークである。
我々の研究の鍵となる革新は、1つのモデルに運動と操作の両方をシームレスに統合できる最初の統合視覚言語アクション(VLA)モデルの導入である。
論文 参考訳(メタデータ) (2024-11-29T17:36:03Z) - LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner [9.044939946653002]
言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。
本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。
LaMMA-Pは、LMの推論能力と従来の探索プランナーの強みを統合し、高い成功率と効率を達成する。
論文 参考訳(メタデータ) (2024-09-30T17:58:18Z) - COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。