論文の概要: Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training
- arxiv url: http://arxiv.org/abs/2402.14407v3
- Date: Mon, 07 Oct 2024 08:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:28.445079
- Title: Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training
- Title(参考訳): 大規模アクションレスビデオ事前学習による行動可能離散拡散政策の学習
- Authors: Haoran He, Chenjia Bai, Ling Pan, Weinan Zhang, Bin Zhao, Xuelong Li,
- Abstract要約: ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
- 参考スコア(独自算出の注目度): 69.54948297520612
- License:
- Abstract: Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.
- Abstract(参考訳): 複数のタスクを完了できる汎用的な実施エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因する課題を引き起こす。
対照的に、複雑なタスクと物理的な世界とのインタラクションをキャプチャする、膨大な数の人間のビデオが存在する。
限られたロボットのデモンストレーションを通じて、ロボットのポリシー学習を促進するために、知識を事前訓練し、伝達するために、アクションレスの人間ビデオを利用する確率が生まれる。
しかし、人間とロボットのドメインギャップのため、これは依然として課題である。
また,そのノイズやマルチモーダルなデータ構造から,人間の映像から動的世界を表す有用な情報を抽出することは困難である。
本稿では,これらの課題に対処するための新しい枠組みを提案する。これは,人間のビデオにおける生成前訓練と,少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために,統一的な離散拡散を利用する。
まず、人間とロボットのビデオの両方を、統一されたビデオトークンに圧縮することから始めます。
事前学習段階では、マスク・アンド・リプレース拡散戦略を用いた離散拡散モデルを用いて、潜在空間における将来のビデオトークンを予測する。
微調整の段階では、想像した未来のビデオを利用して、限られたロボットデータで低レベルのアクション学習をガイドする。
実験により,提案手法は,従来の最先端手法と比較して,高忠実度な今後の計画ビデオを生成し,微調整ポリシーを向上することを示した。
プロジェクトのWebサイトはhttps://video-diff.github.io/.comで公開されている。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
ロボットのための新しいエンドツーエンドビデオベース学習フレームワークであるVid2Robotを紹介した。
Vid2Robotは、操作タスクと現在の視覚的観察のデモビデオから、ロボットのアクションを直接生成する。
これは、人間のビデオとロボットの軌道の大規模なデータセットに基づいて訓練された統一表現モデルによって達成される。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。