論文の概要: Waver: Wave Your Way to Lifelike Video Generation
- arxiv url: http://arxiv.org/abs/2508.15761v2
- Date: Tue, 26 Aug 2025 10:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.03854
- Title: Waver: Wave Your Way to Lifelike Video Generation
- Title(参考訳): Waver:ライフスタイルのビデオ生成への道のり
- Authors: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Bingyue Peng, Zehuan Yuan,
- Abstract要約: Waverは、統合画像およびビデオ生成のための高性能基盤モデルである。
同時に、単一の統合フレームワーク内で、テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、テキスト・トゥ・イメージ(T2I)生成をサポートする。
ウェーバーは複雑な動きを捉え、ビデオ合成において優れた動き振幅と時間的一貫性を達成する。
- 参考スコア(独自算出の注目度): 35.927955667967204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
- Abstract(参考訳): We present Waver, a high- Performance foundation model for unified image and video generation。
Waverは、720pのネイティブ解像度で5秒から10秒間のビデオを直接生成できる。
このモデルは、単一の統合フレームワーク内で、テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、テキスト・トゥ・イメージ(T2I)生成を同時にサポートする。
本稿では,モダリティアライメントを強化し,トレーニング収束を加速するHybrid Stream DiTアーキテクチャを提案する。
トレーニングデータの品質を確保するため、我々は包括的なデータキュレーションパイプラインを構築し、MLLMベースのビデオ品質モデルに手動で注釈付けし、高品質なサンプルをフィルタリングする訓練を行う。
さらに,高品質なビデオ生成を容易にするための詳細なトレーニングと推論のレシピも提供する。
これらの貢献に基づいて、Waverは複雑な動きを捉え、ビデオ合成において優れた動き振幅と時間的一貫性を達成する。
とくに、Artificial Analysis(2025-07-30 10:00 GMT+8のデータ)のT2VとI2Vのリーダーボードのトップ3にランクインしている。
この技術レポートによって、コミュニティは高品質のビデオ生成モデルをより効率的に訓練し、ビデオ生成技術の進歩を加速できることを期待している。
公式ページ: https://github.com/FoundationVision/Waver.com
関連論文リスト
- Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文 参考訳(メタデータ) (2024-03-04T07:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。