論文の概要: Waver: Wave Your Way to Lifelike Video Generation
- arxiv url: http://arxiv.org/abs/2508.15761v2
- Date: Tue, 26 Aug 2025 10:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.03854
- Title: Waver: Wave Your Way to Lifelike Video Generation
- Title(参考訳): Waver:ライフスタイルのビデオ生成への道のり
- Authors: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Bingyue Peng, Zehuan Yuan,
- Abstract要約: Waverは、統合画像およびビデオ生成のための高性能基盤モデルである。
同時に、単一の統合フレームワーク内で、テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、テキスト・トゥ・イメージ(T2I)生成をサポートする。
ウェーバーは複雑な動きを捉え、ビデオ合成において優れた動き振幅と時間的一貫性を達成する。
- 参考スコア(独自算出の注目度): 35.927955667967204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
- Abstract(参考訳): We present Waver, a high- Performance foundation model for unified image and video generation。
Waverは、720pのネイティブ解像度で5秒から10秒間のビデオを直接生成できる。
このモデルは、単一の統合フレームワーク内で、テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、テキスト・トゥ・イメージ(T2I)生成を同時にサポートする。
本稿では,モダリティアライメントを強化し,トレーニング収束を加速するHybrid Stream DiTアーキテクチャを提案する。
トレーニングデータの品質を確保するため、我々は包括的なデータキュレーションパイプラインを構築し、MLLMベースのビデオ品質モデルに手動で注釈付けし、高品質なサンプルをフィルタリングする訓練を行う。
さらに,高品質なビデオ生成を容易にするための詳細なトレーニングと推論のレシピも提供する。
これらの貢献に基づいて、Waverは複雑な動きを捉え、ビデオ合成において優れた動き振幅と時間的一貫性を達成する。
とくに、Artificial Analysis(2025-07-30 10:00 GMT+8のデータ)のT2VとI2Vのリーダーボードのトップ3にランクインしている。
この技術レポートによって、コミュニティは高品質のビデオ生成モデルをより効率的に訓練し、ビデオ生成技術の進歩を加速できることを期待している。
公式ページ: https://github.com/FoundationVision/Waver.com
関連論文リスト
- ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-02-09T14:06:03Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - STIV: Scalable Text and Image Conditioned Video Generation [82.6516473906985]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文 参考訳(メタデータ) (2024-03-04T07:41:50Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。