論文の概要: NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation
- arxiv url: http://arxiv.org/abs/2403.08355v1
- Date: Wed, 13 Mar 2024 09:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:18.978067
- Title: NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation
- Title(参考訳): NaturalVLM: きめ細かい自然言語を活用する
Affordance-Guided Visual Manipulation
- Authors: Ran Xu, Yan Shen, Xiaoqi Li, Ruihai Wu, Hao Dong
- Abstract要約: 多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.02437461550044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling home-assistant robots to perceive and manipulate a diverse range of
3D objects based on human language instructions is a pivotal challenge. Prior
research has predominantly focused on simplistic and task-oriented
instructions, i.e., "Slide the top drawer open". However, many real-world tasks
demand intricate multi-step reasoning, and without human instructions, these
will become extremely difficult for robot manipulation. To address these
challenges, we introduce a comprehensive benchmark, NrVLM, comprising 15
distinct manipulation tasks, containing over 4500 episodes meticulously
annotated with fine-grained language instructions. We split the long-term task
process into several steps, with each step having a natural language
instruction. Moreover, we propose a novel learning framework that completes the
manipulation task step-by-step according to the fine-grained instructions.
Specifically, we first identify the instruction to execute, taking into account
visual observations and the end-effector's current state. Subsequently, our
approach facilitates explicit learning through action-prompts and
perception-prompts to promote manipulation-aware cross-modality alignment.
Leveraging both visual observations and linguistic guidance, our model outputs
a sequence of actionable predictions for manipulation, including contact points
and end-effector poses. We evaluate our method and baselines using the proposed
benchmark NrVLM. The experimental results demonstrate the effectiveness of our
approach. For additional details, please refer to
https://sites.google.com/view/naturalvlm.
- Abstract(参考訳): 人間の言語命令に基づいて多様な3Dオブジェクトを知覚し、操作するために、ホームアシストロボットを導入することは、重要な課題である。
以前の研究では、主に単純化とタスク指向の指示、すなわち「トップドローダを開放する」ことに焦点が当てられていた。
しかし、現実のタスクの多くは複雑な多段階推論を必要としており、人間の指示がなければロボット操作は非常に困難になる。
これらの課題に対処するため、我々は15の異なる操作タスクを含む総合的なベンチマークであるNrVLMを導入し、細粒度言語命令で正確に注釈付けされた4500回以上のエピソードを含む。
我々は、長期タスクプロセスをいくつかのステップに分割し、各ステップが自然言語の命令を持つようにした。
さらに,操作タスクを細かな指示に従ってステップバイステップで完了する新しい学習フレームワークを提案する。
具体的には、まず、視覚的観察とエンドエフェクタの現在の状態を考慮した実行指示を特定する。
提案手法は,動作プロンプトと知覚プロンプトによる明示的な学習を促進し,操作を意識した相互モダリティアライメントを促進する。
視覚的観察と言語指導の両方を活用することで、我々のモデルは、接触点やエンドエフェクタのポーズを含む、操作のための実行可能な一連の予測を出力する。
提案するベンチマークNrVLMを用いて,提案手法とベースラインの評価を行った。
実験の結果,本手法の有効性が示された。
詳細はhttps://sites.google.com/view/naturalvlmを参照してください。
関連論文リスト
- Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Using Both Demonstrations and Language Instructions to Efficiently Learn
Robotic Tasks [21.65346551790888]
DeL-TaCoは、視覚的なデモンストレーションと言語指導という2つのコンポーネントからなるタスク埋め込みにロボットポリシーを条件付ける方法である。
我々の知る限り、デモと言語埋め込みの両方にマルチタスクロボット操作ポリシーを同時に条件付けすることで、モダリティのみの条件付けよりもサンプル効率と一般化が向上することを示す最初の研究である。
論文 参考訳(メタデータ) (2022-10-10T08:06:58Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Visual-and-Language Navigation: A Survey and Taxonomy [1.0742675209112622]
本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。
命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。
この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
論文 参考訳(メタデータ) (2021-08-26T01:51:18Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。