論文の概要: Seer: Language Instructed Video Prediction with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.14897v1
- Date: Mon, 27 Mar 2023 03:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:55:32.619459
- Title: Seer: Language Instructed Video Prediction with Latent Diffusion Models
- Title(参考訳): Seer:潜時拡散モデルを用いた言語指示ビデオ予測
- Authors: Xianfan Gu, Chuan Wen, Jiaming Song, Yang Gao
- Abstract要約: ビデオ予測は、命令と高忠実度フレームで指定されたタスクレベルの目標をまとめることが難しいタスクである。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
十分に設計されたアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に沿ったビデオフレームを生成することができる。
- 参考スコア(独自算出の注目度): 34.766504136753916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imagining the future trajectory is the key for robots to make sound planning
and successfully reach their goals. Therefore, text-conditioned video
prediction (TVP) is an essential task to facilitate general robot policy
learning, i.e., predicting future video frames with a given language
instruction and reference frames. It is a highly challenging task to ground
task-level goals specified by instructions and high-fidelity frames together,
requiring large-scale data and computation. To tackle this task and empower
robots with the ability to foresee the future, we propose a sample and
computation-efficient model, named \textbf{Seer}, by inflating the pretrained
text-to-image (T2I) stable diffusion models along the temporal axis. We inflate
the denoising U-Net and language conditioning model with two novel techniques,
Autoregressive Spatial-Temporal Attention and Frame Sequential Text Decomposer,
to propagate the rich prior knowledge in the pretrained T2I models across the
frames. With the well-designed architecture, Seer makes it possible to generate
high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a
few layers on a small amount of data. The experimental results on Something
Something V2 (SSv2) and Bridgedata datasets demonstrate our superior video
prediction performance with around 210-hour training on 4 RTX 3090 GPUs:
decreasing the FVD of the current SOTA model from 290 to 200 on SSv2 and
achieving at least 70\% preference in the human evaluation.
- Abstract(参考訳): 将来の軌道を想像することは、ロボットが音を立てて目標を達成するための鍵だ。
したがって、テキストコンディショニングビデオ予測(tvp)は、与えられた言語命令と参照フレームによる将来のビデオフレームの予測など、一般的なロボットポリシー学習を促進するために必要なタスクである。
命令と高忠実度フレームで指定されたタスクレベルの目標を、大規模データと計算を必要とする、非常に難しいタスクである。
この課題に対処し,ロボットに未来を予知する能力を与えるため,時間軸に沿ったテキスト・トゥ・イメージ(T2I)安定拡散モデルを膨らませることで,サンプルと計算効率のよいモデルである「textbf{Seer}」を提案する。
フレーム間の事前学習T2Iモデルの豊富な事前知識を伝播させるために, 自己回帰的空間的注意とフレーム列テキスト分解という2つの新しい手法を用いて, U-Netと言語条件モデルを構築した。
十分に設計されたアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に沿ったビデオフレームを生成することができる。
v2(ssv2)とbridgedataデータセットによる実験結果は、4つのrtx 3090 gpuで約210時間トレーニングを行い、ssv2上で現在のsomaモデルのfvdを290から200に減らし、人間評価において少なくとも70\%の選好を達成するという、優れたビデオ予測性能を示している。
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。