Fugu-MT 論文翻訳(概要): Seer: Language Instructed Video Prediction with Latent Diffusion Models

論文の概要: Seer: Language Instructed Video Prediction with Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2303.14897v3
Date: Mon, 29 Jan 2024 03:18:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 23:07:57.401158
Title: Seer: Language Instructed Video Prediction with Latent Diffusion Models
Title（参考訳）: Seer:潜時拡散モデルを用いた言語指示ビデオ予測
Authors: Xianfan Gu, Chuan Wen, Weirui Ye, Jiaming Song, Yang Gao
Abstract要約: テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
参考スコア（独自算出の注目度）: 43.708550061909754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning. To tackle this task and empower robots with the ability to foresee the future, we propose a sample and computation-efficient model, named \textbf{Seer}, by inflating the pretrained text-to-image (T2I) stable diffusion models along the temporal axis. We enhance the U-Net and language conditioning model by incorporating computation-efficient spatial-temporal attention. Furthermore, we introduce a novel Frame Sequential Text Decomposer module that dissects a sentence's global instruction into temporally aligned sub-instructions, ensuring precise integration into each frame of generation. Our framework allows us to effectively leverage the extensive prior knowledge embedded in pretrained T2I models across the frames. With the adaptable-designed architecture, Seer makes it possible to generate high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a few layers on a small amount of data. The experimental results on Something Something V2 (SSv2), Bridgedata and EpicKitchens-100 datasets demonstrate our superior video prediction performance with around 480-GPU hours versus CogVideo with over 12,480-GPU hours: achieving the 31% FVD improvement compared to the current SOTA model on SSv2 and 83.7% average preference in the human evaluation.
Abstract（参考訳）: 将来の軌道を想像することは、ロボットが音を立てて目標を達成するための鍵だ。したがって,テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。この課題に対処し,ロボットに未来を予知する能力を与えるため,時間軸に沿ったテキスト・トゥ・イメージ(T2I)安定拡散モデルを膨らませることで,サンプルと計算効率のよいモデルである「textbf{Seer}」を提案する。計算効率の空間時間的注意を取り入れることで,U-Netと言語条件モデルを強化する。さらに,文のグローバルインストラクションを時間的に調整したサブインストラクションに分解する新しいフレームシーケンシャルテキスト分解モジュールを導入し,各生成フレームへの正確な統合を実現する。我々のフレームワークは、フレーム全体で事前訓練されたT2Iモデルに埋め込まれた広範な事前知識を効果的に活用することができる。適応設計のアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に整合したビデオフレームを生成することができる。 v2(ssv2)、bridgedata(bridgedata)、epickitchens-100(epickitchens-100)データセットによる実験の結果は、cogvideoと比較して約480gpu時間、cogvideoでは12,480gpu時間、現在のssv2のsomaモデルと比較して31%のfvd改善、83.7%の平均評価よりもビデオ予測性能が優れていることを示している。

関連論文リスト

Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction [36.82594554832902]
テキストビデオ予測(英: text-video prediction、TVP)は、後続のビデオフレームを生成するモデルを必要とする下流のビデオ生成タスクである。フレームワイドコンディショニング適応 (FCA) をラベル付けした適応型戦略を提案する。我々は、初期フレームを余剰条件として組み込んだT2Vモデルを微調整するためにFCAを使用する。
論文参考訳（メタデータ） (2025-03-17T09:06:21Z)
STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。 STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文参考訳（メタデータ） (2024-12-10T18:27:06Z)
FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文参考訳（メタデータ） (2024-10-20T12:10:24Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文参考訳（メタデータ） (2022-10-21T13:03:49Z)
Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。 GHVAEは4つのビデオデータセットで予測性能が17～55%向上し、実際のロボットタスクで35～40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文参考訳（メタデータ） (2021-03-06T18:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。