論文の概要: Towards Generalist Robot Learning from Internet Video: A Survey
- arxiv url: http://arxiv.org/abs/2404.19664v5
- Date: Wed, 23 Jul 2025 17:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 14:06:48.773881
- Title: Towards Generalist Robot Learning from Internet Video: A Survey
- Title(参考訳): インターネットビデオによる汎用型ロボットの学習に向けて : アンケート調査より
- Authors: Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li,
- Abstract要約: 本調査は,ビデオ(LfV)の新たな学習分野を体系的に検討する。
まず,ビデオデータにおける分散シフトや動作ラベルの欠如といった基本的なLfV課題について概説する。
次に、大規模インターネットビデオから知識を抽出し、LfV課題を克服し、ビデオインフォームドトレーニングによるロボット学習を改善するための現在の手法を包括的にレビューする。
- 参考スコア(独自算出の注目度): 56.621902345314645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling deep learning to massive and diverse internet data has driven remarkable breakthroughs in domains such as video generation and natural language processing. Robot learning, however, has thus far failed to replicate this success and remains constrained by a scarcity of available data. Learning from videos (LfV) methods aim to address this data bottleneck by augmenting traditional robot data with large-scale internet video. This video data provides foundational information regarding physical dynamics, behaviours, and tasks, and can be highly informative for general-purpose robots. This survey systematically examines the emerging field of LfV. We first outline essential concepts, including detailing fundamental LfV challenges such as distribution shift and missing action labels in video data. Next, we comprehensively review current methods for extracting knowledge from large-scale internet video, overcoming LfV challenges, and improving robot learning through video-informed training. The survey concludes with a critical discussion of future opportunities. Here, we emphasize the need for scalable foundation model approaches that can leverage the full range of available internet video and enhance the learning of robot policies and dynamics models. Overall, the survey aims to inform and catalyse future LfV research, driving progress towards general-purpose robots.
- Abstract(参考訳): 大規模で多様なインターネットデータへのディープラーニングのスケーリングは、ビデオ生成や自然言語処理といった領域で画期的なブレークスルーを引き起こしている。
しかし、ロボット学習は今のところこの成功を再現できず、利用可能なデータの不足に制約されている。
ビデオからの学習(LfV)は、従来のロボットデータを大規模インターネットビデオで強化することで、このデータのボトルネックに対処することを目的としている。
このビデオデータは、物理力学、行動、タスクに関する基礎的な情報を提供し、汎用ロボットにとって非常に有益である。
本調査はLfVの出現分野を体系的に検討する。
まず,ビデオデータにおける分散シフトや動作ラベルの欠如といった基本的なLfV課題について概説する。
次に、大規模インターネットビデオから知識を抽出し、LfV課題を克服し、ビデオインフォームドトレーニングによるロボット学習を改善するための現在の手法を包括的にレビューする。
調査は今後の可能性に関する批判的な議論で締めくくられている。
ここでは、利用可能なインターネットビデオの全範囲を活用したスケーラブルな基盤モデルアプローチの必要性を強調し、ロボットポリシーとダイナミックスモデルの学習を強化する。
この調査は、将来のLfV研究を通知し、触媒することを目的としており、汎用ロボットへの進歩を推進している。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping [4.7079226008262145]
ロボットの把握は現実のシナリオにおいて困難な運動課題を示す。
コンピュータビジョンの最近の進歩は、教師なしのトレーニングメカニズムの成功を目撃している。
ロボットの把持性能向上における大規模視覚前訓練の有用性について検討した。
論文 参考訳(メタデータ) (2024-06-17T17:39:30Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。