論文の概要: Unleashing Large-Scale Video Generative Pre-training for Visual Robot
Manipulation
- arxiv url: http://arxiv.org/abs/2312.13139v2
- Date: Thu, 21 Dec 2023 05:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:25:12.015063
- Title: Unleashing Large-Scale Video Generative Pre-training for Visual Robot
Manipulation
- Title(参考訳): 視覚ロボットマニピュレーションのための大規模ビデオ生成事前学習
- Authors: Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu,
Xinghang Li, Minghuan Liu, Hang Li, Tao Kong
- Abstract要約: 本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。
GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。
ロボットの動作と将来のイメージをエンドツーエンドで予測する。
- 参考スコア(独自算出の注目度): 25.09113607683987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative pre-trained models have demonstrated remarkable effectiveness in
language and vision domains by learning useful representations. In this paper,
we extend the scope of this effectiveness by showing that visual robot
manipulation can significantly benefit from large-scale video generative
pre-training. We introduce GR-1, a straightforward GPT-style model designed for
multi-task language-conditioned visual robot manipulation. GR-1 takes as inputs
a language instruction, a sequence of observation images, and a sequence of
robot states. It predicts robot actions as well as future images in an
end-to-end manner. Thanks to a flexible design, GR-1 can be seamlessly
finetuned on robot data after pre-trained on a large-scale video dataset. We
perform extensive experiments on the challenging CALVIN benchmark and a real
robot. On CALVIN benchmark, our method outperforms state-of-the-art baseline
methods and improves the success rate from 88.9% to 94.9%. In the setting of
zero-shot unseen scene generalization, GR-1 improves the success rate from
53.3% to 85.4%. In real robot experiments, GR-1 also outperforms baseline
methods and shows strong potentials in generalization to unseen scenes and
objects. We provide inaugural evidence that a unified GPT-style transformer,
augmented with large-scale video generative pre-training, exhibits remarkable
generalization to multi-task visual robot manipulation. Project page:
https://GR1-Manipulation.github.io
- Abstract(参考訳): 生成事前学習モデルは、有用な表現を学習することで、言語と視覚領域において顕著な効果を示した。
本稿では,視覚ロボット操作が大規模映像生成事前学習の恩恵を受けることを示すことにより,この効果の範囲を広げる。
本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。
GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。
ロボットの動作と将来のイメージをエンドツーエンドで予測する。
フレキシブルな設計のおかげで、GR-1は大規模なビデオデータセットで事前訓練された後、ロボットデータに対してシームレスに微調整できる。
我々は、挑戦的なCALVINベンチマークと本物のロボットについて広範な実験を行った。
CALVINベンチマークでは,最先端のベースライン手法より優れ,88.9%から94.9%に改善されている。
ゼロショットのシーン一般化の設定では、GR-1は成功率を53.3%から85.4%に改善する。
実際のロボット実験では、GR-1はベースライン法よりも優れており、見えないシーンや物体への一般化に強い可能性を示している。
本稿では,大規模ビデオ生成事前学習を併用した統一型GPT型トランスフォーマーが,マルチタスク視覚ロボット操作に対する顕著な一般化を示すことを示す。
プロジェクトページ: https://GR1-Manipulation.github.io
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation [21.455124378231957]
GR-2は、汎用的で汎用的な操作のための最先端の汎用ロボットエージェントである。
GR-2は、世界のダイナミクスを捉えるために、多数のインターネットビデオで事前訓練されている。
GR-2は印象的なマルチタスク学習能力を示し、100以上のタスクで平均97.7%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-08T16:00:47Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。