論文の概要: Towards Generalist Robot Learning from Internet Video: A Survey
- arxiv url: http://arxiv.org/abs/2404.19664v3
- Date: Mon, 14 Oct 2024 17:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 17:54:27.195933
- Title: Towards Generalist Robot Learning from Internet Video: A Survey
- Title(参考訳): インターネットビデオによる汎用型ロボットの学習に向けて : アンケート調査より
- Authors: Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li,
- Abstract要約: ディープラーニングを巨大なインターネットスクレイプデータセットにスケールすることで、自然言語処理と視覚的理解と生成において、極めて一般的な機能を実現している。
データはロボット工学で収集するには不十分で費用がかかる。これは、他の領域で観測される能力の一般性に合わせるために、ロボット学習が苦労しているのである。
Learning from Videos (LfV)メソッドは、従来のロボットデータを大規模なインターネットスクラッドビデオデータセットで拡張することで、このデータボトルネックに対処しようとしている。
- 参考スコア(独自算出の注目度): 56.621902345314645
- License:
- Abstract: Scaling deep learning to huge internet-scraped datasets has yielded remarkably general capabilities in natural language processing and visual understanding and generation. In contrast, data is scarce and expensive to collect in robotics. This has seen robot learning struggle to match the generality of capabilities observed in other domains. Learning from Videos (LfV) methods seek to address this data bottleneck by augmenting traditional robot data with large internet-scraped video datasets. Such video data may provide the model with foundational information regarding physical behaviours and the physics of the world. This holds great promise for improving the generality of our robots. In this survey, we present an overview of the emerging field of LfV. We outline fundamental concepts, including the benefits and challenges of LfV. We provide a comprehensive review of current methods for: extracting knowledge from large-scale internet video; tackling key LfV challenges; and boosting downstream reinforcement and robot learning via the use of video data. LfV datasets and benchmarks are also reviewed. The survey closes with a critical discussion of challenges and opportunities. Here, we advocate for scalable foundation model approaches that can leverage the full range of available internet video to aid the learning of robot policies and dynamics models. We hope this survey can inform and catalyse further LfV research, facilitating progress towards the development of general-purpose robots.
- Abstract(参考訳): ディープラーニングを巨大なインターネットスクレイプデータセットにスケールすることで、自然言語処理と視覚的理解と生成において、極めて一般的な機能を実現している。
対照的に、データは乏しく、ロボティクスで収集するのに費用がかかる。
これは、他の領域で観察される能力の一般性に合わせるために、ロボット学習が苦労しているのである。
Learning from Videos (LfV)メソッドは、従来のロボットデータを大規模なインターネットスクラッドビデオデータセットで拡張することで、このデータボトルネックに対処しようとしている。
このようなビデオデータは、物理行動や世界の物理に関する基礎的な情報を提供することができる。
これは私たちのロボットの汎用性を改善するための大きな約束です。
本稿では,LfVの新興分野について概説する。
LfVのメリットや課題など,基本的な概念を概説する。
大規模なインターネットビデオから知識を抽出し、重要なLfV課題に対処し、ビデオデータを用いて下流の強化とロボット学習を促進する。
LfVデータセットとベンチマークもレビューされている。
この調査は、課題と機会に関する批判的な議論で締めくくられている。
そこで我々は,ロボットのポリシーやダイナミックスモデルの学習を支援するために,利用可能なインターネットビデオの全範囲を活用する,スケーラブルな基盤モデルアプローチを提唱する。
この調査によってLfVの研究がさらに進展し、汎用ロボットの開発が進むことを願っている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping [4.7079226008262145]
ロボットの把握は現実のシナリオにおいて困難な運動課題を示す。
コンピュータビジョンの最近の進歩は、教師なしのトレーニングメカニズムの成功を目撃している。
ロボットの把持性能向上における大規模視覚前訓練の有用性について検討した。
論文 参考訳(メタデータ) (2024-06-17T17:39:30Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。