論文の概要: ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow
- arxiv url: http://arxiv.org/abs/2505.01288v2
- Date: Mon, 12 May 2025 13:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:13.022918
- Title: ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow
- Title(参考訳): ViSA-Flow: 大規模ビデオセマンティックアクションフローによるロボットスキル学習の高速化
- Authors: Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson,
- Abstract要約: 教師なし大規模ビデオデータから事前ラベル付き表現を学習するフレームワークであるViSA-Flowを提案する。
まず、大規模人-物間相互作用ビデオデータから、生成訓練された意味行動の流れを自動的に抽出する。
第2に、この前者は、同じセマンティック抽象化パイプラインで処理された小さなロボットのデモセットを微調整することで、ターゲットロボットに効率的に適応する。
- 参考スコア(独自算出の注目度): 4.2766838326810355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the central challenges preventing robots from acquiring complex manipulation skills is the prohibitive cost of collecting large-scale robot demonstrations. In contrast, humans are able to learn efficiently by watching others interact with their environment. To bridge this gap, we introduce semantic action flow as a core intermediate representation capturing the essential spatio-temporal manipulator-object interactions, invariant to superficial visual differences. We present ViSA-Flow, a framework that learns this representation self-supervised from unlabeled large-scale video data. First, a generative model is pre-trained on semantic action flows automatically extracted from large-scale human-object interaction video data, learning a robust prior over manipulation structure. Second, this prior is efficiently adapted to a target robot by fine-tuning on a small set of robot demonstrations processed through the same semantic abstraction pipeline. We demonstrate through extensive experiments on the CALVIN benchmark and real-world tasks that ViSA-Flow achieves state-of-the-art performance, particularly in low-data regimes, outperforming prior methods by effectively transferring knowledge from human video observation to robotic execution. Videos are available at https://visaflow-web.github.io/ViSAFLOW.
- Abstract(参考訳): ロボットが複雑な操作スキルを得るのを防ぐ重要な課題の1つは、大規模なロボットデモを集めることの禁止コストである。
対照的に、人間は他人が環境と対話するのを見ることで、効率的に学習することができる。
このギャップを埋めるために、表面的な視覚差に不変な、時空間マニピュレータ-オブジェクト相互作用をキャプチャーする中核中間表現として意味的な動作フローを導入する。
我々は、この表現をラベルのない大規模ビデオデータから自己教師するフレームワークであるViSA-Flowを提案する。
まず、大規模な人-物間相互作用ビデオデータから自動的に抽出される意味行動フローに基づいて、生成モデルを事前訓練し、操作構造上の堅牢な事前学習を行う。
第2に、この前者は、同じセマンティック抽象化パイプラインで処理された小さなロボットのデモセットを微調整することで、ターゲットロボットに効率的に適応する。
我々は、CALVINベンチマークと、ViSA-Flowが最先端のパフォーマンス、特に低データ体制において達成した実世界のタスクに関する広範な実験を通じて、人間のビデオ観察からロボット実行への知識の伝達を効果的に行うことにより、先行手法より優れていることを示す。
ビデオはhttps://visaflow-web.github.io/ViSAFLOW.comで公開されている。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Scaling Manipulation Learning with Visual Kinematic Chain Prediction [32.99644520625179]
本研究では,多様な環境下でのロボット学習における準静的動作の高精度かつ普遍的な表現として,視覚キネマティクス連鎖を提案する。
我々は,Calvin,RLBench,Open-X,および実際のロボット操作タスクにおいて,BC変換器に対するVKTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-12T03:10:27Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。