論文の概要: Seer: Language Instructed Video Prediction with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.14897v3
- Date: Mon, 29 Jan 2024 03:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 23:07:57.401158
- Title: Seer: Language Instructed Video Prediction with Latent Diffusion Models
- Title(参考訳): Seer:潜時拡散モデルを用いた言語指示ビデオ予測
- Authors: Xianfan Gu, Chuan Wen, Weirui Ye, Jiaming Song, Yang Gao
- Abstract要約: テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
- 参考スコア(独自算出の注目度): 43.708550061909754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imagining the future trajectory is the key for robots to make sound planning
and successfully reach their goals. Therefore, text-conditioned video
prediction (TVP) is an essential task to facilitate general robot policy
learning. To tackle this task and empower robots with the ability to foresee
the future, we propose a sample and computation-efficient model, named
\textbf{Seer}, by inflating the pretrained text-to-image (T2I) stable diffusion
models along the temporal axis. We enhance the U-Net and language conditioning
model by incorporating computation-efficient spatial-temporal attention.
Furthermore, we introduce a novel Frame Sequential Text Decomposer module that
dissects a sentence's global instruction into temporally aligned
sub-instructions, ensuring precise integration into each frame of generation.
Our framework allows us to effectively leverage the extensive prior knowledge
embedded in pretrained T2I models across the frames. With the
adaptable-designed architecture, Seer makes it possible to generate
high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a
few layers on a small amount of data. The experimental results on Something
Something V2 (SSv2), Bridgedata and EpicKitchens-100 datasets demonstrate our
superior video prediction performance with around 480-GPU hours versus CogVideo
with over 12,480-GPU hours: achieving the 31% FVD improvement compared to the
current SOTA model on SSv2 and 83.7% average preference in the human
evaluation.
- Abstract(参考訳): 将来の軌道を想像することは、ロボットが音を立てて目標を達成するための鍵だ。
したがって,テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
この課題に対処し,ロボットに未来を予知する能力を与えるため,時間軸に沿ったテキスト・トゥ・イメージ(T2I)安定拡散モデルを膨らませることで,サンプルと計算効率のよいモデルである「textbf{Seer}」を提案する。
計算効率の空間時間的注意を取り入れることで,U-Netと言語条件モデルを強化する。
さらに,文のグローバルインストラクションを時間的に調整したサブインストラクションに分解する新しいフレームシーケンシャルテキスト分解モジュールを導入し,各生成フレームへの正確な統合を実現する。
我々のフレームワークは、フレーム全体で事前訓練されたT2Iモデルに埋め込まれた広範な事前知識を効果的に活用することができる。
適応設計のアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に整合したビデオフレームを生成することができる。
v2(ssv2)、bridgedata(bridgedata)、epickitchens-100(epickitchens-100)データセットによる実験の結果は、cogvideoと比較して約480gpu時間、cogvideoでは12,480gpu時間、現在のssv2のsomaモデルと比較して31%のfvd改善、83.7%の平均評価よりもビデオ予測性能が優れていることを示している。
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。