Fugu-MT 論文翻訳(概要): Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

論文の概要: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

arxiv url: http://arxiv.org/abs/2501.08453v1
Date: Tue, 14 Jan 2025 21:53:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.293706
Title: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models
Title（参考訳）: Vchitect-2.0: ビデオ拡散モデルのスケールアップのための並列変換器
Authors: Weichen Fan, Chenyang Si, Junhao Song, Zhenyu Yang, Yinan He, Long Zhuo, Ziqi Huang, Ziyue Dong, Jingwen He, Dongwei Pan, Yi Wang, Yuming Jiang, Yaohui Wang, Peng Gao, Xinyuan Chen, Hengjie Li, Dahua Lin, Yu Qiao, Ziwei Liu,
Abstract要約: Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
参考スコア（独自算出の注目度）: 89.79067761383855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Vchitect-2.0, a parallel transformer architecture designed to scale up video diffusion models for large-scale text-to-video generation. The overall Vchitect-2.0 system has several key designs. (1) By introducing a novel Multimodal Diffusion Block, our approach achieves consistent alignment between text descriptions and generated video frames, while maintaining temporal coherence across sequences. (2) To overcome memory and computational bottlenecks, we propose a Memory-efficient Training framework that incorporates hybrid parallelism and other memory reduction techniques, enabling efficient training of long video sequences on distributed systems. (3) Additionally, our enhanced data processing pipeline ensures the creation of Vchitect T2V DataVerse, a high-quality million-scale training dataset through rigorous annotation and aesthetic evaluation. Extensive benchmarking demonstrates that Vchitect-2.0 outperforms existing methods in video quality, training efficiency, and scalability, serving as a suitable base for high-fidelity video generation.
Abstract（参考訳）: Vchitect-2.0は,大規模テキスト・ビデオ生成のためのビデオ拡散モデルのスケールアップを目的とした並列トランスフォーマアーキテクチャである。全体的なVchitect-2.0システムにはいくつかの重要な設計がある。 1)新しいマルチモーダル拡散ブロックを導入することで,シーケンス間の時間的コヒーレンスを維持しつつ,テキスト記述と生成されたビデオフレームの整合性を実現する。 2) メモリと計算のボトルネックを克服するために,ハイブリッド並列処理や他のメモリ削減手法を取り入れたメモリ効率訓練フレームワークを提案する。さらに,付加的なデータ処理パイプラインにより,厳密なアノテーションと美的評価を通じて,高品質な100万規模のトレーニングデータセットであるVchitect T2V DataVerseの作成が保証される。大規模なベンチマークでは、Vchitect-2.0はビデオ品質、トレーニング効率、スケーラビリティにおいて既存の手法よりも優れており、高忠実度ビデオ生成に適した基盤として機能している。

関連論文リスト

AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.09360569154206]
テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T11:13:33Z)
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
VidTok: A Versatile and Open-Source Video Tokenizer [24.018360305535307]
VidTokは、連続したトークン化と離散的なトークン化の両方で最先端のパフォーマンスを提供する、汎用的なビデオトークン化ツールである。これらの進歩を統合することで、VidTokは既存のメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-12-17T16:27:11Z)
Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。 C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。 2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文参考訳（メタデータ） (2024-10-19T05:50:00Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文参考訳（メタデータ） (2023-06-24T10:44:02Z)
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文参考訳（メタデータ） (2021-11-19T17:36:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。