論文の概要: Towards Generalist Robot Learning from Internet Video: A Survey
- arxiv url: http://arxiv.org/abs/2404.19664v4
- Date: Tue, 12 Nov 2024 12:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:17.139864
- Title: Towards Generalist Robot Learning from Internet Video: A Survey
- Title(参考訳): インターネットビデオによる汎用型ロボットの学習に向けて : アンケート調査より
- Authors: Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li,
- Abstract要約: 本稿では,LfV(Learning from Videos)の新たな分野について概説する。
LfVは、従来のロボットデータを大規模なインターネットビデオデータで強化することで、ロボットデータのボトルネックに対処することを目指している。
本稿では、大規模インターネットビデオから知識を抽出し、LfVにおける重要な課題に対処し、映像データを用いて下流ロボットと強化学習を促進するための現在の手法についてレビューする。
- 参考スコア(独自算出の注目度): 56.621902345314645
- License:
- Abstract: Scaling deep learning to massive, diverse internet data has yielded remarkably general capabilities in visual and natural language understanding and generation. However, data has remained scarce and challenging to collect in robotics, seeing robot learning struggle to obtain similarly general capabilities. Promising Learning from Videos (LfV) methods aim to address the robotics data bottleneck by augmenting traditional robot data with large-scale internet video data. This video data offers broad foundational information regarding physical behaviour and the underlying physics of the world, and thus can be highly informative for a generalist robot. In this survey, we present a thorough overview of the emerging field of LfV. We outline fundamental concepts, including the benefits and challenges of LfV. We provide a comprehensive review of current methods for extracting knowledge from large-scale internet video, addressing key challenges in LfV, and boosting downstream robot and reinforcement learning via the use of video data. The survey concludes with a critical discussion of challenges and opportunities in LfV. Here, we advocate for scalable foundation model approaches that can leverage the full range of available internet video to improve the learning of robot policies and dynamics models. We hope this survey can inform and catalyse further LfV research, driving progress towards the development of general-purpose robots.
- Abstract(参考訳): 大規模で多様なインターネットデータへのディープラーニングのスケーリングは、視覚的および自然言語の理解と生成において極めて一般的な機能を生み出している。
しかし、データは乏しく、ロボット工学では収集が困難であり、ロボット学習も同様に一般的な能力を得るのに苦労している。
Promising Learning from Videos (LfV)メソッドは、大規模なインターネットビデオデータで従来のロボットデータを拡張することで、ロボットのデータボトルネックに対処することを目的としている。
このビデオデータは、世界の物理行動と基礎となる物理に関する幅広い基礎情報を提供しており、汎用ロボットにとって非常に有益である。
本稿では,LfVの新しい分野について概観する。
LfVのメリットや課題など,基本的な概念を概説する。
本稿では、大規模インターネットビデオから知識を抽出し、LfVにおける重要な課題に対処し、映像データを用いて下流ロボットと強化学習を促進するための現在の手法を包括的にレビューする。
調査はLfVの課題と機会に関する批判的な議論で締めくくられている。
ここでは、利用可能なインターネットビデオの全範囲を活用して、ロボットポリシーとダイナミックスモデルの学習を改善するスケーラブルな基盤モデルアプローチを提唱する。
この調査によってLfVの研究がさらに進展し、汎用ロボットの開発が進むことを願っている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping [4.7079226008262145]
ロボットの把握は現実のシナリオにおいて困難な運動課題を示す。
コンピュータビジョンの最近の進歩は、教師なしのトレーニングメカニズムの成功を目撃している。
ロボットの把持性能向上における大規模視覚前訓練の有用性について検討した。
論文 参考訳(メタデータ) (2024-06-17T17:39:30Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。