論文の概要: Robot Learning from Human Videos: A Survey
- arxiv url: http://arxiv.org/abs/2604.27621v1
- Date: Thu, 30 Apr 2026 09:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.016263
- Title: Robot Learning from Human Videos: A Survey
- Title(参考訳): 人間のビデオから学ぶロボット:サーベイ
- Authors: Junyi Ma, Erhang Zhang, Haoran Yang, Ditao Li, Chenyang Xu, Guangming Wang, Hesheng Wang,
- Abstract要約: エンボディされたAIとロボティクスのさらなる進歩を妨げる重要なボトルネックは、ロボットデータのスケーリングである。
近年,人間のビデオデータからロボット操作技術を学ぶ分野が急速に注目を集めている。
本稿では,ロボット工学におけるヒューマンビデオベースの学習技術に関する総合的なレビューを行う。
- 参考スコア(独自算出の注目度): 30.494143344658227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A critical bottleneck hindering further advancement in embodied AI and robotics is the challenge of scaling robot data. To address this, the field of learning robot manipulation skills from human video data has attracted rapidly growing attention in recent years, driven by the abundance of human activity videos and advances in computer vision. This line of research promises to enable robots to acquire skills passively from the vast and readily available resource of human demonstrations, substantially favoring scalable learning for generalist robotic systems. Therefore, we present this survey to provide a comprehensive and up-to-date review of human-video-based learning techniques in robotics, focusing on both human-robot skill transfer and data foundations. We first review the policy learning foundations in robotics, and then describe the fundamental interfaces to incorporate human videos. Subsequently, we introduce a hierarchical taxonomy of transferring human videos to robot skills, covering task-, observation-, and action-oriented pathways, along with a cross-family analysis of their couplings with different data configurations and learning paradigms. In addition, we investigate the data foundations including widely-used human video datasets and video generation schemes, and provide large-scale statistical trends in dataset development and utilization. Ultimately, we emphasize the challenges and limitations intrinsic to this field, and delineate potential avenues for future research. The paper list of our survey is available at https://github.com/IRMVLab/awesome-robot-learning-from-human-videos.
- Abstract(参考訳): エンボディされたAIとロボティクスのさらなる進歩を妨げる重要なボトルネックは、ロボットデータのスケーリングである。
これを解決するために、人間のビデオデータからロボットの操作技術を学習する分野は、人間の活動ビデオの多さやコンピュータビジョンの進歩によって、近年急速に注目を集めている。
この一連の研究は、ロボットが人間のデモの膨大なリソースから受動的にスキルを習得できるようにすることを約束している。
そこで本研究では,ロボット工学におけるヒューマンビデオベースの学習技術について,人間ロボットのスキル伝達とデータ基盤の両面に着目し,包括的かつ最新のレビューを行う。
まず,ロボット工学における政策学習の基礎を概観し,人間の動画を組み込むための基本的なインターフェースについて述べる。
その後、人間の映像をロボットのスキルに移行し、タスク、観察、行動指向の経路をカバーし、異なるデータ構成と学習パラダイムとの結合をクロスファミリー分析する階層的な分類法を紹介した。
さらに,広範に利用されているヒトビデオデータセットやビデオ生成手法を含むデータ基盤について検討し,データセット開発と利用における大規模統計トレンドを提供する。
究極的には、この分野に固有の課題と限界を強調し、将来の研究の潜在的な道筋を明確にする。
調査のペーパーリストはhttps://github.com/IRMVLab/awesome-robot-learning-from-human-videos.comで公開されている。
関連論文リスト
- Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
本調査は,ビデオ(LfV)の新たな学習分野を体系的に検討する。
まず,ビデオデータにおける分散シフトや動作ラベルの欠如といった基本的なLfV課題について概説する。
次に、大規模インターネットビデオから知識を抽出し、LfV課題を克服し、ビデオインフォームドトレーニングによるロボット学習を改善するための現在の手法を包括的にレビューする。
論文 参考訳(メタデータ) (2024-04-30T15:57:41Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。