Fugu-MT 論文翻訳(概要): Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

論文の概要: Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

arxiv url: http://arxiv.org/abs/2402.14407v3
Date: Mon, 07 Oct 2024 08:45:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 03:27:36.26235
Title: Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training
Title（参考訳）: 大規模アクションレスビデオ事前学習による行動可能離散拡散政策の学習
Authors: Haoran He, Chenjia Bai, Ling Pan, Weinan Zhang, Bin Zhao, Xuelong Li,
Abstract要約: ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
参考スコア（独自算出の注目度）: 69.54948297520612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.
Abstract（参考訳）: 複数のタスクを完了できる汎用的な実施エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因する課題を引き起こす。対照的に、複雑なタスクと物理的な世界とのインタラクションをキャプチャする、膨大な数の人間のビデオが存在する。限られたロボットのデモンストレーションを通じて、ロボットのポリシー学習を促進するために、知識を事前訓練し、伝達するために、アクションレスの人間ビデオを利用する確率が生まれる。しかし、人間とロボットのドメインギャップのため、これは依然として課題である。また,そのノイズやマルチモーダルなデータ構造から,人間の映像から動的世界を表す有用な情報を抽出することは困難である。本稿では,これらの課題に対処するための新しい枠組みを提案する。これは,人間のビデオにおける生成前訓練と,少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために,統一的な離散拡散を利用する。まず、人間とロボットのビデオの両方を、統一されたビデオトークンに圧縮することから始めます。事前学習段階では、マスク・アンド・リプレース拡散戦略を用いた離散拡散モデルを用いて、潜在空間における将来のビデオトークンを予測する。微調整の段階では、想像した未来のビデオを利用して、限られたロボットデータで低レベルのアクション学習をガイドする。実験により,提案手法は,従来の最先端手法と比較して,高忠実度な今後の計画ビデオを生成し,微調整ポリシーを向上することを示した。プロジェクトのWebサイトはhttps://video-diff.github.io/.comで公開されている。

関連論文リスト

Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文参考訳（メタデータ） (2025-07-17T08:31:55Z)
ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文参考訳（メタデータ） (2025-03-31T09:27:00Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-19T17:47:37Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文参考訳（メタデータ） (2023-04-17T17:59:34Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
Video2Skill: Adapting Events in Demonstration Videos to Skills in an Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文参考訳（メタデータ） (2021-09-08T17:59:01Z)
Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。 DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。 DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文参考訳（メタデータ） (2021-03-31T05:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。