論文の概要: ALIVE: Animate Your World with Lifelike Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2602.08682v1
- Date: Mon, 09 Feb 2026 14:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.266083
- Title: ALIVE: Animate Your World with Lifelike Audio-Video Generation
- Title(参考訳): ALIVE:ライフスタイルのオーディオビデオで世界を切り離す
- Authors: Ying Guo, Qijun Gan, Yifu Zhang, Jinlai Liu, Yifei Hu, Pan Xie, Dongjun Qian, Yu Zhang, Ruiqi Li, Yuqi Zhang, Ruibiao Lu, Xiaofeng Mei, Bo Han, Xiang Yin, Bingyue Peng, Zehuan Yuan,
- Abstract要約: ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
- 参考スコア(独自算出の注目度): 50.693986608051716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation is rapidly evolving towards unified audio-video generation. In this paper, we present ALIVE, a generation model that adapts a pretrained Text-to-Video (T2V) model to Sora-style audio-video generation and animation. In particular, the model unlocks the Text-to-Video&Audio (T2VA) and Reference-to-Video&Audio (animation) capabilities compared to the T2V foundation models. To support the audio-visual synchronization and reference animation, we augment the popular MMDiT architecture with a joint audio-video branch which includes TA-CrossAttn for temporally-aligned cross-modal fusion and UniTemp-RoPE for precise audio-visual alignment. Meanwhile, a comprehensive data pipeline consisting of audio-video captioning, quality control, etc., is carefully designed to collect high-quality finetuning data. Additionally, we introduce a new benchmark to perform a comprehensive model test and comparison. After continue pretraining and finetuning on million-level high-quality data, ALIVE demonstrates outstanding performance, consistently outperforming open-source models and matching or surpassing state-of-the-art commercial solutions. With detailed recipes and benchmarks, we hope ALIVE helps the community develop audio-video generation models more efficiently. Official page: https://github.com/FoundationVision/Alive.
- Abstract(参考訳): ビデオ生成は、統合されたオーディオビデオ生成に向けて急速に進化している。
本稿では,事前に訓練されたテキスト・トゥ・ビデオ(T2V)モデルをSoraスタイルのオーディオ・ビデオ生成とアニメーションに適応させる生成モデルであるALIVEを提案する。
特に、このモデルは、T2Vファンデーションモデルと比較して、Text-to-Video&Audio(T2VA)とReference-to-Video&Audio(アニメーション)機能をアンロックする。
音声-視覚同期と参照アニメーションをサポートするため,時間的に整列するTA-CrossAttnと正確なオーディオ-視覚アライメントのためのUniTemp-RoPEを含む共同オーディオビデオブランチでMMDiTアーキテクチャを拡張した。
一方、高品質な微調整データを集めるために、オーディオ映像キャプション、品質制御等からなる包括的データパイプラインを慎重に設計する。
さらに、包括的モデルテストと比較を行うための新しいベンチマークを導入する。
百万単位の高品質なデータの事前トレーニングと微調整を継続した後、ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルより優れ、最先端の商用ソリューションに適合または超越している。
詳細なレシピとベンチマークによって、ALIVEはコミュニティがより効率的にオーディオビデオ生成モデルを開発するのに役立つことを願っています。
公式ページ: https://github.com/FoundationVision/Alive.com
関連論文リスト
- MOVA: Towards Scalable and Synchronized Video-Audio Generation [90.85149005517775]
高品質で同期した映像コンテンツを生成できるオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
論文 参考訳(メタデータ) (2026-02-09T15:31:54Z) - VABench: A Comprehensive Benchmark for Audio-Video Generation [22.00633729850902]
VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。
タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。
VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
論文 参考訳(メタデータ) (2025-12-10T03:57:29Z) - Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [27.20097004987987]
ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。
実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-06-24T16:39:39Z) - video-SALMONN 2: Caption-Enhanced Audio-Visual Large Language Models [47.74219861820857]
ビデオ記述と質問応答(QA)に新たなSOTA(State-of-the-art)を設定できる音声視覚大言語モデルであるVideo-SALMONN 2を提案する。
我々の中核的な貢献はマルチラウンド直接選好最適化(MrDPO)であり、完全性と事実的精度を両立させるキャプション品質の目標と組み合わせている。
論文 参考訳(メタデータ) (2025-06-18T07:58:41Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs [55.82090875098132]
VideoLLaMA 2は、ビデオおよびオーディオ指向タスクにおける時空間モデリングと音声理解を強化するために設計されたビデオ大言語モデル(Video Large Language Models, Video-LLMs)のセットである。
VideoLLaMA 2は、オープンソースモデル間の競争結果を一貫して達成し、いくつかのベンチマークでいくつかのプロプライエタリなモデルに近づいた。
論文 参考訳(メタデータ) (2024-06-11T17:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。