論文の概要: Omni2Sound: Towards Unified Video-Text-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2601.02731v1
- Date: Tue, 06 Jan 2026 05:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.815694
- Title: Omni2Sound: Towards Unified Video-Text-to-Audio Generation
- Title(参考訳): Omni2Sound: 統一されたビデオテキスト・ツー・オーディオ世代を目指して
- Authors: Yusheng Dai, Zehua Chen, Yuxuan Jiang, Baolong Gao, Qiuhong Ke, Jun Zhu, Jianfei Cai,
- Abstract要約: Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
- 参考スコア(独自算出の注目度): 56.11583645408007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a unified model integrating video-to-audio (V2A), text-to-audio (T2A), and joint video-text-to-audio (VT2A) generation offers significant application flexibility, yet faces two unexplored foundational challenges: (1) the scarcity of high-quality audio captions with tight A-V-T alignment, leading to severe semantic conflict between multimodal conditions, and (2) cross-task and intra-task competition, manifesting as an adverse V2A-T2A performance trade-off and modality bias in the VT2A task. First, to address data scarcity, we introduce SoundAtlas, a large-scale dataset (470k pairs) that significantly outperforms existing benchmarks and even human experts in quality. Powered by a novel agentic pipeline, it integrates Vision-to-Language Compression to mitigate visual bias of MLLMs, a Junior-Senior Agent Handoff for a 5 times cost reduction, and rigorous Post-hoc Filtering to ensure fidelity. Consequently, SoundAtlas delivers semantically rich and temporally detailed captions with tight V-A-T alignment. Second, we propose Omni2Sound, a unified VT2A diffusion model supporting flexible input modalities. To resolve the inherent cross-task and intra-task competition, we design a three-stage multi-task progressive training schedule that converts cross-task competition into joint optimization and mitigates modality bias in the VT2A task, maintaining both audio-visual alignment and off-screen audio generation faithfulness. Finally, we construct VGGSound-Omni, a comprehensive benchmark for unified evaluation, including challenging off-screen tracks. With a standard DiT backbone, Omni2Sound achieves unified SOTA performance across all three tasks within a single model, demonstrating strong generalization across benchmarks with heterogeneous input conditions. The project page is at https://swapforward.github.io/Omni2Sound.
- Abstract(参考訳): Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) の2つの基本的な課題に直面している。
まず、データの不足に対処するため、大規模なデータセット(470万ペア)であるSoundAtlasを紹介します。
新しいエージェントパイプラインによって駆動され、ビジョン・ツー・ランゲージ圧縮(Vision-to-Language Compression)を統合して、MLLMの視覚バイアスを軽減する。
その結果、SoundAtlasは、セマンティックにリッチで時間的に詳細なキャプションをV-A-Tアライメントで提供する。
第2に、フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
本研究の目的は,3段階のマルチタスク・プログレッシブ・トレーニング・スケジュールを設計し,マルチタスク・コンペティションを共同最適化し,VT2Aタスクにおけるモダリティバイアスを軽減し,視覚的アライメントとオフスクリーンオーディオ生成の忠実さを両立させることである。
最後に,VGGSound-Omniという,画面外トラックへの挑戦を含む統合評価のための総合的なベンチマークを構築した。
標準のDiTバックボーンにより、Omni2Soundは1つのモデル内の3つのタスクすべてに統一されたSOTA性能を実現し、不均一な入力条件を持つベンチマーク間で強力な一般化を示す。
プロジェクトのページはhttps://swapforward.github.io/Omni2Soundにある。
関連論文リスト
- T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation [41.03487954415606]
Text-to-Audio-Video (T2AV) は、自然言語から時間的コヒーレントなビデオと意味的に同期された音声を合成することを目的としている。
本稿では,T2AVシステムの総合評価のための統合ベンチマークであるT2AV-を提案する。
最強のモデルでさえ、人間レベルのリアリズムとクロスモーダルな一貫性にかなり劣っている。
論文 参考訳(メタデータ) (2025-12-24T10:30:35Z) - ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization [10.717164013707693]
現在のV2A(V2A)手法は、複雑なマルチイベントシナリオで苦労している。
本稿では,新しいV2AフレームワークであるMultiSoundGenを提案する。
直接優先最適化(DPO)をV2Aドメインに導入する。
論文 参考訳(メタデータ) (2025-09-24T11:04:34Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。