論文の概要: Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2502.19417v1
- Date: Wed, 26 Feb 2025 18:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:23.575996
- Title: Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
- Title(参考訳): Hi Robot: 階層型視覚-言語-行動モデルによるオープンエンドインストラクション
- Authors: Lucy Xiaoyang Shi, Brian Ichter, Michael Equi, Liyiming Ke, Karl Pertsch, Quan Vuong, James Tanner, Anna Walling, Haohuan Wang, Niccolo Fusai, Adrian Li-Bell, Danny Driess, Lachy Groom, Sergey Levine, Chelsea Finn,
- Abstract要約: 汎用ロボットは、タスク実行中に複雑な命令、プロンプト、さらにはフィードバックを処理できなければならない。
階層構造における視覚言語モデルを用いたシステムについて述べる。
我々は、単腕、二腕、二腕移動ロボットを含む3つのロボットプラットフォームにまたがるシステムを評価した。
- 参考スコア(独自算出の注目度): 76.1979254112106
- License:
- Abstract: Generalist robots that can perform a range of different tasks in open-world settings must be able to not only reason about the steps needed to accomplish their goals, but also process complex instructions, prompts, and even feedback during task execution. Intricate instructions (e.g., "Could you make me a vegetarian sandwich?" or "I don't like that one") require not just the ability to physically perform the individual steps, but the ability to situate complex commands and feedback in the physical world. In this work, we describe a system that uses vision-language models in a hierarchical structure, first reasoning over complex prompts and user feedback to deduce the most appropriate next step to fulfill the task, and then performing that step with low-level actions. In contrast to direct instruction following methods that can fulfill simple commands ("pick up the cup"), our system can reason through complex prompts and incorporate situated feedback during task execution ("that's not trash"). We evaluate our system across three robotic platforms, including single-arm, dual-arm, and dual-arm mobile robots, demonstrating its ability to handle tasks such as cleaning messy tables, making sandwiches, and grocery shopping.
- Abstract(参考訳): オープンワールド環境でさまざまなタスクを実行できる汎用ロボットは、目標を達成するために必要なステップを推論するだけでなく、タスク実行中に複雑な命令、プロンプト、さらにはフィードバックも処理できなければならない。
複雑な指示(例えば、ベジタリアンサンドイッチを作れますか?」「好きではない」など)には、個々のステップを物理的に実行する能力だけでなく、複雑なコマンドやフィードバックを物理的に満たす能力も必要です。
本研究では,視覚言語モデルを用いた階層構造を記述し,まず複雑なプロンプトとユーザフィードバックを推論し,タスクを遂行する上で最も適切な次のステップを導出し,そのステップを低レベルなアクションで実行するシステムについて述べる。
単純なコマンド("pick up the cup")を満足するメソッドに従う直接命令とは対照的に、我々のシステムは複雑なプロンプトを通じて推論し、タスク実行中に位置したフィードバック(" That's not garbage")を組み込むことができる。
我々は,1本腕,2本腕,2本腕の移動ロボットを含む3つのロボットプラットフォームにまたがってシステムを評価し,乱雑なテーブルのクリーニング,サンドイッチ作り,食料品の買い物などのタスクを処理できることを実証した。
関連論文リスト
- Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models [21.72355258499675]
我々は,ロボットが高レベルの手動指示で案内される複雑な組み立てタスクを実行できる新しいフレームワークであるManual2Skillを提案する。
提案手法では,視覚言語モデル(VLM)を用いて,教師画像から構造化情報を抽出する。
実世界のIKEA家具の組み立てに成功して, Manual2Skillの有効性を実証した。
論文 参考訳(メタデータ) (2025-02-14T11:25:24Z) - COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Enabling robots to follow abstract instructions and complete complex dynamic tasks [4.514939211420443]
本稿では,大規模言語モデル,キュレートされた知識ベース,統合力と視覚フィードバック(IFVF)を組み合わせた新しいフレームワークを提案する。
提案手法は,抽象的な命令を解釈し,長期的タスクを実行し,不確実性に対処する。
私たちの発見は、付随するビデオで説明され、オープンソースのGitHubリポジトリでサポートされています。
論文 参考訳(メタデータ) (2024-06-17T05:55:35Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。
本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。
LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文 参考訳(メタデータ) (2024-02-18T08:05:54Z) - Interactive Task Planning with Language Models [89.5839216871244]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
言語モデルを用いた対話型タスクプランニングを実現するための,高レベルプランニングと低レベルスキル実行を併用したシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - Using Both Demonstrations and Language Instructions to Efficiently Learn
Robotic Tasks [21.65346551790888]
DeL-TaCoは、視覚的なデモンストレーションと言語指導という2つのコンポーネントからなるタスク埋め込みにロボットポリシーを条件付ける方法である。
我々の知る限り、デモと言語埋め込みの両方にマルチタスクロボット操作ポリシーを同時に条件付けすることで、モダリティのみの条件付けよりもサンプル効率と一般化が向上することを示す最初の研究である。
論文 参考訳(メタデータ) (2022-10-10T08:06:58Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。
このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。
Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-05T17:28:20Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。