論文の概要: Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- arxiv url: http://arxiv.org/abs/2504.13351v1
- Date: Thu, 17 Apr 2025 21:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:11:00.803526
- Title: Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- Title(参考訳): Chain-of-Modality:視覚言語モデルを用いたマルチモーダルヒューマンビデオからの操作プログラムの学習
- Authors: Chen Wang, Fei Xia, Wenhao Yu, Tingnan Zhang, Ruohan Zhang, C. Karen Liu, Li Fei-Fei, Jie Tan, Jacky Liang,
- Abstract要約: カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
- 参考スコア(独自算出の注目度): 49.4824734958566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to perform manipulation tasks from human videos is a promising approach for teaching robots. However, many manipulation tasks require changing control parameters during task execution, such as force, which visual data alone cannot capture. In this work, we leverage sensing devices such as armbands that measure human muscle activities and microphones that record sound, to capture the details in the human manipulation process, and enable robots to extract task plans and control parameters to perform the same task. To achieve this, we introduce Chain-of-Modality (CoM), a prompting strategy that enables Vision Language Models to reason about multimodal human demonstration data -- videos coupled with muscle or audio signals. By progressively integrating information from each modality, CoM refines a task plan and generates detailed control parameters, enabling robots to perform manipulation tasks based on a single multimodal human video prompt. Our experiments show that CoM delivers a threefold improvement in accuracy for extracting task plans and control parameters compared to baselines, with strong generalization to new task setups and objects in real-world robot experiments. Videos and code are available at https://chain-of-modality.github.io
- Abstract(参考訳): 人間のビデオから操作タスクを学習することは、ロボットを教える上で有望なアプローチだ。
しかし、多くの操作タスクは、視覚データだけではキャプチャできないフォースのようなタスク実行中に制御パラメータを変更する必要がある。
本研究では,人間の筋活動を計測するアームバンドや,音を録音するマイクロホンなどのセンシング装置を活用し,人間の操作プロセスの細部を捉え,ロボットがタスク計画や制御パラメータを抽出して同じタスクを実行することを可能にする。
これを実現するために、視覚言語モデルがマルチモーダルな人間の実演データ -- 筋肉や音声信号と結合したビデオ -- を推論できるプロンプト戦略であるChain-of-Modality(CoM)を導入する。
各モードからの情報を段階的に統合することにより、CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットが単一のマルチモーダルヒューマンビデオプロンプトに基づいて操作タスクを実行できるようにする。
実世界のロボット実験において,CoMはタスク計画と制御パラメータをベースラインと比較して3倍の精度向上を実現し,新たなタスク設定やオブジェクトへの強力な一般化を実現している。
ビデオとコードはhttps://chain-of-modality.github.ioで公開されている。
関連論文リスト
- ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。
我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。
他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文 参考訳(メタデータ) (2025-03-31T09:27:00Z) - Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost [8.71539730969424]
MoMa-Teleopは、既存のインターフェースからエンドエフェクタ動作を推測する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Style-transfer based Speech and Audio-visual Scene Understanding for
Robot Action Sequence Acquisition from Videos [40.012813353904875]
本稿では,教示ビデオからロボット行動系列を生成する手法を提案する。
そこで我々は,ロボットが調理ビデオから取得したシーケンスを実行する,様々な調理動作を行うシステムを構築した。
論文 参考訳(メタデータ) (2023-06-27T17:37:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining [28.504762473732296]
本稿では,タスク非依存のビジュモータトラジェクトリから学習するトランスフォーマーに基づくアーキテクチャを提案する。
特に、コンプレックスのトランスフォーマーにおける相対的な位置エンコーディングを使用することは、人間が編集したデモから学習する低データ体制において大いに役立ちます。
論文 参考訳(メタデータ) (2023-03-15T17:31:37Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。