論文の概要: RoboEnvision: A Long-Horizon Video Generation Model for Multi-Task Robot Manipulation
- arxiv url: http://arxiv.org/abs/2506.22007v1
- Date: Fri, 27 Jun 2025 08:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.133254
- Title: RoboEnvision: A Long-Horizon Video Generation Model for Multi-Task Robot Manipulation
- Title(参考訳): RoboEnvision:マルチタスクロボットマニピュレーションのための長距離ビデオ生成モデル
- Authors: Liudi Yang, Yang Bai, George Eskandar, Fengyi Shen, Mohammad Altillawi, Dong Chen, Soumajit Majumder, Ziyuan Liu, Gitta Kutyniok, Abhinav Valada,
- Abstract要約: ロボット操作作業のための長距離ビデオ生成の問題に対処する。
本稿では,自己回帰生成の必要性を回避できる新しいパイプラインを提案する。
提案手法は,ビデオ品質と一貫性の2つのベンチマークにおいて,最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 30.252593687028767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of generating long-horizon videos for robotic manipulation tasks. Text-to-video diffusion models have made significant progress in photorealism, language understanding, and motion generation but struggle with long-horizon robotic tasks. Recent works use video diffusion models for high-quality simulation data and predictive rollouts in robot planning. However, these works predict short sequences of the robot achieving one task and employ an autoregressive paradigm to extend to the long horizon, leading to error accumulations in the generated video and in the execution. To overcome these limitations, we propose a novel pipeline that bypasses the need for autoregressive generation. We achieve this through a threefold contribution: 1) we first decompose the high-level goals into smaller atomic tasks and generate keyframes aligned with these instructions. A second diffusion model then interpolates between each of the two generated frames, achieving the long-horizon video. 2) We propose a semantics preserving attention module to maintain consistency between the keyframes. 3) We design a lightweight policy model to regress the robot joint states from generated videos. Our approach achieves state-of-the-art results on two benchmarks in video quality and consistency while outperforming previous policy models on long-horizon tasks.
- Abstract(参考訳): ロボット操作作業のための長距離ビデオ生成の問題に対処する。
テキストとビデオの拡散モデルは、フォトリアリズム、言語理解、モーションジェネレーションにおいて大きな進歩を遂げてきたが、長距離ロボット作業に苦戦している。
最近の研究は、ロボット計画における高品質なシミュレーションデータと予測ロールアウトにビデオ拡散モデルを使用している。
しかしながら、これらの研究は、1つのタスクを達成するロボットの短いシーケンスを予測し、長い地平線まで拡張するために自己回帰パラダイムを使用し、生成されたビデオと実行中にエラーの蓄積を引き起こす。
これらの制約を克服するために,自動回帰生成の必要性を回避できる新しいパイプラインを提案する。
私たちはこれを3倍のコントリビューションで達成しています。
1) 高いレベルの目標をまず小さな原子タスクに分解し、これらの命令に沿ったキーフレームを生成する。
次に、2つ目の拡散モデルが2つの生成されたフレームの間に補間し、長い水平ビデオを達成する。
2)キーフレーム間の一貫性を維持するために,アテンションモジュールを保持するセマンティックスを提案する。
3) 生成したビデオからロボットの関節状態を復元する軽量なポリシーモデルを設計する。
提案手法は,ビデオ品質と一貫性の2つのベンチマークにおいて,従来の長軸タスクのポリシーモデルよりも優れていた。
関連論文リスト
- VideoMAR: Autoregressive Video Generatio with Continuous Tokens [33.906543515428424]
マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。
連続トークンを用いたデコーダのみの自己回帰画像-ビデオモデルである textbfVideoMAR を提案する。
VideoMARは以前の最先端(Cosmos I2V)よりはるかに少ないパラメータを必要とする。
論文 参考訳(メタデータ) (2025-06-17T04:08:18Z) - RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping [26.010205882976624]
RoboSwapは多様な環境からの未ペアデータで動作する。
私たちはロボットアームを彼らのバックグラウンドから切り離し、片方のロボットアームをもう片方のロボットアームに翻訳するために、無人のGANモデルを訓練します。
実験の結果,RoboSwapは3つのベンチマークで最先端のビデオや画像編集モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-10T09:46:07Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。