論文の概要: Towards Generalist Robot Learning from Internet Video: A Survey
- arxiv url: http://arxiv.org/abs/2404.19664v1
- Date: Tue, 30 Apr 2024 15:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:36:16.123561
- Title: Towards Generalist Robot Learning from Internet Video: A Survey
- Title(参考訳): インターネットビデオによる汎用型ロボットの学習に向けて : アンケート調査より
- Authors: Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li,
- Abstract要約: 本稿では,強化学習(RL)とロボット工学の文脈におけるビデオ(LfV)からの学習方法の概要について述べる。
我々は、大規模なインターネットビデオデータセットにスケール可能な方法に焦点を当てる。
利用可能な全範囲のデータを活用するスケーラブルなアプローチを提唱し、LfVの重要なメリットを目標としています。
- 参考スコア(独自算出の注目度): 56.621902345314645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey presents an overview of methods for learning from video (LfV) in the context of reinforcement learning (RL) and robotics. We focus on methods capable of scaling to large internet video datasets and, in the process, extracting foundational knowledge about the world's dynamics and physical human behaviour. Such methods hold great promise for developing general-purpose robots. We open with an overview of fundamental concepts relevant to the LfV-for-robotics setting. This includes a discussion of the exciting benefits LfV methods can offer (e.g., improved generalization beyond the available robot data) and commentary on key LfV challenges (e.g., challenges related to missing information in video and LfV distribution shifts). Our literature review begins with an analysis of video foundation model techniques that can extract knowledge from large, heterogeneous video datasets. Next, we review methods that specifically leverage video data for robot learning. Here, we categorise work according to which RL knowledge modality benefits from the use of video data. We additionally highlight techniques for mitigating LfV challenges, including reviewing action representations that address the issue of missing action labels in video. Finally, we examine LfV datasets and benchmarks, before concluding the survey by discussing challenges and opportunities in LfV. Here, we advocate for scalable approaches that can leverage the full range of available data and that target the key benefits of LfV. Overall, we hope this survey will serve as a comprehensive reference for the emerging field of LfV, catalysing further research in the area, and ultimately facilitating progress towards obtaining general-purpose robots.
- Abstract(参考訳): 本稿では,強化学習(RL)とロボット工学の文脈におけるビデオ(LfV)からの学習方法の概要について述べる。
我々は、大規模なインターネットビデオデータセットにスケール可能な方法に焦点を当て、その過程で、世界のダイナミクスと物理的な人間の振る舞いに関する基礎知識を抽出する。
このような手法は汎用ロボットの開発に大いに貢献する。
LfV-for-roboticsセッティングに関する基本概念の概要を述べる。
この中には、LfVメソッドがもたらすエキサイティングなメリット(例えば、利用可能なロボットデータ以外の一般化の改善)や、重要なLfV課題(例えば、ビデオやLfVの分散シフトにおける欠落に関する情報に関連する課題)に関する解説が含まれている。
我々の文献レビューは、巨大で異質なビデオデータセットから知識を抽出できるビデオ基盤モデル技術の分析から始まる。
次に,ロボット学習にビデオデータを活用する手法について検討する。
本稿では,ビデオデータの利用によってRLの知識モダリティが向上する作業の分類を行う。
また、ビデオ中のアクションラベルの欠落の問題に対処するアクション表現のレビューなど、LfV課題を緩和するためのテクニックも強調する。
最後に、LfVのデータセットとベンチマークを調査し、LfVの課題と機会について議論することで、調査を終了する。
ここでは、利用可能な全範囲のデータを活用し、LfVの重要なメリットを目標とするスケーラブルなアプローチを提唱する。
全体としては、この調査がLfVの新興分野の総合的な参照として役立ち、この分野のさらなる研究を触媒し、最終的には汎用ロボットの獲得に向けた進歩を促進することを願っている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping [4.7079226008262145]
ロボットの把握は現実のシナリオにおいて困難な運動課題を示す。
コンピュータビジョンの最近の進歩は、教師なしのトレーニングメカニズムの成功を目撃している。
ロボットの把持性能向上における大規模視覚前訓練の有用性について検討した。
論文 参考訳(メタデータ) (2024-06-17T17:39:30Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。