論文の概要: MotIF: Motion Instruction Fine-tuning
- arxiv url: http://arxiv.org/abs/2409.10683v1
- Date: Mon, 16 Sep 2024 19:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:50:48.026634
- Title: MotIF: Motion Instruction Fine-tuning
- Title(参考訳): MotIF:モーションインストラクションの微調整
- Authors: Minyoung Hwang, Joey Hejna, Dorsa Sadigh, Yonatan Bisk,
- Abstract要約: 多くのタスクは、成功を正しく判断するためにロボットの完全な動きを観察する必要がある。
先行研究では、成功検知器として市販のヴィジュアル言語モデル(VLM)がよく用いられていた。
本研究では,VLMを微調整し,ロボットの動作を環境内で意味的にグルーピングするモーションインストラクションファインタニング(MotIF)を提案する。
- 参考スコア(独自算出の注目度): 46.517750125047236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While success in many robotics tasks can be determined by only observing the final state and how it differs from the initial state - e.g., if an apple is picked up - many tasks require observing the full motion of the robot to correctly determine success. For example, brushing hair requires repeated strokes that correspond to the contours and type of hair. Prior works often use off-the-shelf vision-language models (VLMs) as success detectors; however, when success depends on the full trajectory, VLMs struggle to make correct judgments for two reasons. First, modern VLMs are trained only on single frames, and cannot capture changes over a full trajectory. Second, even if we provide state-of-the-art VLMs with an aggregate input of multiple frames, they still fail to detect success due to a lack of robot data. Our key idea is to fine-tune VLMs using abstract representations that are able to capture trajectory-level information such as the path the robot takes by overlaying keypoint trajectories on the final image. We propose motion instruction fine-tuning (MotIF), a method that fine-tunes VLMs using the aforementioned abstract representations to semantically ground the robot's behavior in the environment. To benchmark and fine-tune VLMs for robotic motion understanding, we introduce the MotIF-1K dataset containing 653 human and 369 robot demonstrations across 13 task categories. MotIF assesses the success of robot motion given the image observation of the trajectory, task instruction, and motion description. Our model significantly outperforms state-of-the-art VLMs by at least twice in precision and 56.1% in recall, generalizing across unseen motions, tasks, and environments. Finally, we demonstrate practical applications of MotIF in refining and terminating robot planning, and ranking trajectories on how they align with task and motion descriptions. Project page: https://motif-1k.github.io
- Abstract(参考訳): 多くのロボティクスタスクの成功は、最終状態と、それが初期状態とどのように異なるか(例えば、リンゴが拾われた場合)を観察するだけで決定できるが、成功を正しく決定するためには、ロボットの完全な動きを観察する必要がある。
例えば、ブラッシングヘアは、輪郭や髪型に対応する繰り返しストロークを必要とする。
しかし、成功が完全な軌道に依存する場合、VLMは2つの理由から正しい判断を下すのに苦労する。
第一に、現代のVLMは単一のフレームでしか訓練されておらず、完全な軌道上の変化を捉えることができない。
第二に、複数のフレームの集合的な入力を最先端のVLMに提供しても、ロボットデータが不足しているため、成功は見つからない。
我々のキーとなるアイデアは、最終画像上にキーポイント軌跡をオーバーレイすることで、ロボットが取る経路などの軌道レベルの情報をキャプチャできる抽象表現を用いて、VLMを微調整することである。
本稿では、上記抽象表現を用いてVLMを微調整し、ロボットの動作を環境内で意味的にグルーピングするモーションインストラクションファインタニング(MotIF)を提案する。
ロボット動作理解のためのVLMのベンチマークと微調整を行うため、13のタスクカテゴリにわたる653人の人間と369人のロボットデモを含むMotIF-1Kデータセットを紹介した。
MotIFは、軌跡、タスク命令、動作記述のイメージ観察から、ロボットの動きの成功を評価する。
我々のモデルは、最先端のVLMを少なくとも2倍の精度で再現し、56.1%のリコールを行い、目に見えない動き、タスク、環境を一般化する。
最後に,MotIFのロボット計画の精錬・終了における実践的応用と,タスクや動作記述の整合性に関する軌道のランク付けについて述べる。
プロジェクトページ: https://motif-1k.github.io
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model [4.557035895252272]
視覚言語モデル(VLM)は、常識推論と一般化可能性において、ロボット工学に採用されている。
本研究では,VLMを用いて人間のデモ映像を解釈し,ロボットによるタスク計画を生成する。
これは、VLMが人間によるデモンストレーションを「見る」ことができ、それに対応する計画をロボットに「見る」ように説明できるためである。
論文 参考訳(メタデータ) (2024-10-11T13:17:52Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。
本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。
オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文 参考訳(メタデータ) (2024-03-22T13:46:51Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。