論文の概要: Learning from Watching: Scalable Extraction of Manipulation Trajectories from Human Videos
- arxiv url: http://arxiv.org/abs/2512.00024v1
- Date: Mon, 03 Nov 2025 02:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.392208
- Title: Learning from Watching: Scalable Extraction of Manipulation Trajectories from Human Videos
- Title(参考訳): 観察から学ぶ:人間のビデオから操作軌跡をスケーラブルに抽出する
- Authors: X. Hu, G. Ye,
- Abstract要約: 本稿では,ビデオ理解のための大規模基盤モデルと点追跡技術を組み合わせて,操作中のタスク関連キーポイントの高密度な軌跡を抽出する手法を提案する。
実験の結果,提案手法は操作過程全体を通してキーポイントを正確に追跡し,よりスケーラブルでデータ効率のよいロボット学習の道を開いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting high-quality data for training large-scale robotic models typically relies on real robot platforms, which is labor-intensive and costly, whether via teleoperation or scripted demonstrations. To scale data collection, many researchers have turned to leveraging human manipulation videos available online. However, current methods predominantly focus on hand detection or object pose estimation, failing to fully exploit the rich interaction cues embedded in these videos. In this work, we propose a novel approach that combines large foundation models for video understanding with point tracking techniques to extract dense trajectories of all task-relevant keypoints during manipulation. This enables more comprehensive utilization of Internet-scale human demonstration videos. Experimental results demonstrate that our method can accurately track keypoints throughout the entire manipulation process, paving the way for more scalable and data-efficient robot learning.
- Abstract(参考訳): 大規模なロボットモデルを訓練するための高品質なデータ収集は、遠隔操作やスクリプトによるデモによっても、労働集約的でコストがかかる実際のロボットプラットフォームに依存している。
データ収集をスケールするために、多くの研究者がオンラインで利用できる人間の操作ビデオを活用している。
しかし、現在の手法は主に手動検出やオブジェクトのポーズ推定に焦点を合わせており、これらのビデオに埋め込まれたリッチなインタラクションキューを完全に活用できない。
本研究では,ビデオ理解のための大規模基盤モデルとポイントトラッキング技術を組み合わせて,操作中のすべてのタスク関連キーポイントの高密度な軌跡を抽出する手法を提案する。
これにより、インターネット規模の人間デモビデオのより包括的な利用が可能になる。
実験の結果,提案手法は操作過程全体を通してキーポイントを正確に追跡し,よりスケーラブルでデータ効率のよいロボット学習の道を開いた。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning by Watching: Physical Imitation of Manipulation Skills from
Human Videos [28.712673809577076]
本稿では,ロボット操作作業のための人間ビデオからの物理模倣手法を提案する。
人間のビデオをロボットドメインに翻訳し,教師なしのキーポイント検出を行う知覚モジュールを設計した。
リーチ、プッシュ、スライディング、コーヒー製造、引き出しの閉鎖を含む5つのロボット操作タスクに対するアプローチの有効性を評価します。
論文 参考訳(メタデータ) (2021-01-18T18:50:32Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。