論文の概要: Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback
- arxiv url: http://arxiv.org/abs/2503.21969v1
- Date: Thu, 27 Mar 2025 20:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:28:28.104250
- Title: Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback
- Title(参考訳): 視覚誘導型クローズドループフィードバックを用いたデータ非依存型ロボット長軸マニピュレーション
- Authors: Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenshan Bing, Alois Knoll,
- Abstract要約: 本稿では,言語条件のロングホライズンロボット操作のためのデータに依存しないフレームワークであるDAHLIAを紹介する。
LLMは、リアルタイムタスク計画と実行のための大きな言語モデルである。
本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
- 参考スコア(独自算出の注目度): 12.600525101342026
- License:
- Abstract: Recent advances in language-conditioned robotic manipulation have leveraged imitation and reinforcement learning to enable robots to execute tasks from human commands. However, these methods often suffer from limited generalization, adaptability, and the lack of large-scale specialized datasets, unlike data-rich domains such as computer vision, making long-horizon task execution challenging. To address these gaps, we introduce DAHLIA, a data-agnostic framework for language-conditioned long-horizon robotic manipulation, leveraging large language models (LLMs) for real-time task planning and execution. DAHLIA employs a dual-tunnel architecture, where an LLM-powered planner collaborates with co-planners to decompose tasks and generate executable plans, while a reporter LLM provides closed-loop feedback, enabling adaptive re-planning and ensuring task recovery from potential failures. Moreover, DAHLIA integrates chain-of-thought (CoT) in task reasoning and temporal abstraction for efficient action execution, enhancing traceability and robustness. Our framework demonstrates state-of-the-art performance across diverse long-horizon tasks, achieving strong generalization in both simulated and real-world scenarios. Videos and code are available at https://ghiara.github.io/DAHLIA/.
- Abstract(参考訳): 言語条件付きロボット操作の最近の進歩は、ロボットが人間の命令でタスクを実行できるように、模倣と強化学習を活用している。
しかし、これらの手法は、コンピュータビジョンのようなデータリッチな領域とは異なり、限定的な一般化、適応性、大規模な特別なデータセットの欠如に悩まされることが多く、長時間のタスク実行は困難である。
これらのギャップに対処するために,DAHLIAを導入する。DAHLIAは言語条件の長距離ロボット操作のためのデータに依存しないフレームワークで,大規模言語モデル(LLM)をリアルタイムタスク計画と実行に活用する。
DAHLIAはデュアルカーネルアーキテクチャを採用しており、LDMで動くプランナーがタスクを分解し実行可能なプランを生成するために共同プランナーと協力し、レポーターのLSMはクローズループフィードバックを提供し、適応的な再計画を可能にし、潜在的な障害からのタスク回復を保証する。
さらに、DAHLIAはタスク推論におけるチェーン・オブ・シント(CoT)と、効率的なアクション実行のための時間的抽象化を統合し、トレーサビリティと堅牢性を向上する。
本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
ビデオとコードはhttps://ghiara.github.io/DAHLIA/で公開されている。
関連論文リスト
- Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。