論文の概要: AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
- arxiv url: http://arxiv.org/abs/2508.00733v4
- Date: Thu, 07 Aug 2025 04:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.073224
- Title: AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
- Title(参考訳): AudioGen-Omni:ビデオ同期音声・音声・歌唱用統合多モード拡散変換器
- Authors: Le Wang, Jun Wang, Chunyu Qiang, Feng Deng, Chen Zhang, Di Zhang, Kun Gai,
- Abstract要約: AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
- 参考スコア(独自算出の注目度): 24.799628787198397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AudioGen-Omni - a unified approach based on multimodal diffusion transformers (MMDit), capable of generating high-fidelity audio, speech, and song coherently synchronized with the input video. AudioGen-Omni introduces a novel joint training paradigm that seamlessly integrates large-scale video-text-audio corpora, enabling a model capable of generating semantically rich, acoustically diverse audio conditioned on multimodal inputs and adaptable to a wide range of audio generation tasks. AudioGen-Omni employs a unified lyrics-transcription encoder that encodes graphemes and phonemes from both song and spoken inputs into dense frame-level representations. Dense frame-level representations are fused using an AdaLN-based joint attention mechanism enhanced with phase-aligned anisotropic positional infusion (PAAPI), wherein RoPE is selectively applied to temporally structured modalities to ensure precise and robust cross-modal alignment. By unfreezing all modalities and masking missing inputs, AudioGen-Omni mitigates the semantic constraints of text-frozen paradigms, enabling effective cross-modal conditioning. This joint training approach enhances audio quality, semantic alignment, and lip-sync accuracy, while also achieving state-of-the-art results on Text-to-Audio/Speech/Song tasks. With an inference time of 1.91 seconds for 8 seconds of audio, it offers substantial improvements in both efficiency and generality.
- Abstract(参考訳): 本稿では,マルチモーダル拡散変換器(MMDit)をベースとした統一手法であるAudioGen-Omniについて述べる。
AudioGen-Omniは、大規模なビデオテキストオーディオコーパスをシームレスに統合し、マルチモーダル入力で意味的にリッチで音響的に多様なオーディオ条件を生成でき、幅広いオーディオ生成タスクに適応できるモデルを実現する、新しいジョイントトレーニングパラダイムを導入した。
AudioGen-Omniは、歌詞書き起こしエンコーダを使用して、歌と音声の両方の入力からグラテムと音素を密度の高いフレームレベルの表現にエンコードする。
位相整合性異方性位置注入(PAAPI)により強化されたAdaLNベースのジョイントアテンション機構を用いて、高密度フレームレベルの表現を融合し、RoPEを時間的構造に選択的に適用し、正確で堅牢なクロスモーダルアライメントを確保する。
あらゆるモダリティを解放し、欠落した入力を隠蔽することで、AudioGen-Omniはテキスト凍結パラダイムのセマンティック制約を緩和し、効果的なクロスモーダル条件付けを可能にする。
このジョイントトレーニングアプローチは、音質、セマンティックアライメント、リップ同期の精度を高めつつ、Text-to-Audio/Speech/Songタスクの最先端結果を達成する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [27.20097004987987]
ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。
実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-06-24T16:39:39Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [41.74261260212531]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - Dual Audio-Centric Modality Coupling for Talking Head Generation [4.03322932416974]
音声駆動音声ヘッドビデオの生成は、仮想アバターやデジタルメディアなど、コンピュータビジョンとグラフィックスにおいて重要な課題である。
従来のアプローチは、しばしば音声と顔のダイナミックスの間の複雑な相互作用を捉え、唇の同期と視覚的品質の問題を引き起こす。
音声入力からコンテンツや動的特徴を効果的に統合する新しいNeRFベースのフレームワークであるDual Audio-Centric Modality Coupling (DAMC)を提案する。
論文 参考訳(メタデータ) (2025-03-26T06:46:51Z) - MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。