Fugu-MT 論文翻訳(概要): LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics

論文の概要: LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics

arxiv url: http://arxiv.org/abs/2504.21716v1
Date: Wed, 30 Apr 2025 15:00:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 18:08:59.288035
Title: LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics
Title（参考訳）: 家庭用ロボティクスにおける記憶強化タスクプランニングのためのLLMエミュレータ
Authors: Marc Glocker, Peter Hönig, Matthias Hirschmanner, Markus Vincze,
Abstract要約: 自律型家庭用オブジェクト管理のためのLLM駆動型エージェントオーケストレーションアーキテクチャを具現化したロボットシステムを提案する。このシステムはメモリ拡張タスク計画を統合し、過去の動作を追跡しながらロボットがハイレベルなユーザーコマンドを実行できるようにする。
参考スコア（独自算出の注目度）: 7.274730603514222
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an embodied robotic system with an LLM-driven agent-orchestration architecture for autonomous household object management. The system integrates memory-augmented task planning, enabling robots to execute high-level user commands while tracking past actions. It employs three specialized agents: a routing agent, a task planning agent, and a knowledge base agent, each powered by task-specific LLMs. By leveraging in-context learning, our system avoids the need for explicit model training. RAG enables the system to retrieve context from past interactions, enhancing long-term object tracking. A combination of Grounded SAM and LLaMa3.2-Vision provides robust object detection, facilitating semantic scene understanding for task planning. Evaluation across three household scenarios demonstrates high task planning accuracy and an improvement in memory recall due to RAG. Specifically, Qwen2.5 yields best performance for specialized agents, while LLaMA3.1 excels in routing tasks. The source code is available at: https://github.com/marc1198/chat-hsr.
Abstract（参考訳）: 自律型家庭用オブジェクト管理のためのLLM駆動型エージェントオーケストレーションアーキテクチャを具現化したロボットシステムを提案する。このシステムはメモリ拡張タスク計画を統合し、過去の動作を追跡しながらロボットがハイレベルなユーザーコマンドを実行できるようにする。ルーティングエージェント、タスク計画エージェント、ナレッジベースエージェントの3つの特殊エージェントをそれぞれタスク固有のLLMで運用している。文脈内学習を活用することで、明示的なモデルトレーニングの必要性を回避することができる。 RAGにより、システムは過去のインタラクションからコンテキストを検索し、長期オブジェクト追跡を強化することができる。 Grounded SAMとLLaMa3.2-Visionの組み合わせは、堅牢なオブジェクト検出を提供し、タスク計画のためのセマンティックシーン理解を容易にする。 3つのシナリオにわたる評価は、高いタスク計画精度とRAGによるメモリリコールの改善を示す。具体的には、Qwen2.5は特別なエージェントに最高のパフォーマンスを与え、LLaMA3.1はルーティングタスクに優れる。ソースコードは、https://github.com/marc1198/chat-hsr.comで入手できる。

関連論文リスト

Exploring GPT-4 for Robotic Agent Strategy with Real-Time State Feedback and a Reactive Behaviour Framework [0.0]
我々は,新しい大規模言語モデル(LLM)駆動行動法の概念実証として,ヒューマノイドロボットと実世界におけるGPT-4の利用について検討する。問題は、LLMに目標を与え、LLMはその目標を達成するためにサブタスクを出力することである。本稿では,安全性,タスク間の遷移,タスクの時間的地平線,状態フィードバックに関する現実的な懸念に対処する手法を提案する。
論文参考訳（メタデータ） (2025-03-30T21:53:28Z)
REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文参考訳（メタデータ） (2025-03-28T03:51:40Z)
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文参考訳（メタデータ） (2024-06-28T08:28:38Z)
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文参考訳（メタデータ） (2024-06-03T05:50:00Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
Responsible Task Automation: Empowering Large Language Models as Responsible Task Automators [17.991044940694778]
大規模言語モデル(LLM)は、ユーザ命令に従ってタスクを自動補完する有望な可能性を示している。大きな疑問が浮かび上がってくる。人間がタスクを自動化するのを助けるとき、機械はどうやって責任を持って振る舞うことができるのか? 我々は、責任あるタスク自動化(Responsible Task Automation, ResponsibleTA)を、LCMベースのコーディネータとタスク自動化の実行者との間の責任ある協調を促進するための基本的なフレームワークとして提示する。
論文参考訳（メタデータ） (2023-06-02T02:42:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。