論文の概要: Native Audio-Visual Alignment for Generation
- arxiv url: http://arxiv.org/abs/2605.30073v1
- Date: Thu, 28 May 2026 15:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.422261
- Title: Native Audio-Visual Alignment for Generation
- Title(参考訳): 生成のためのネイティブオーディオ・ビジュアルアライメント
- Authors: Longbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He,
- Abstract要約: 共同音声-ビデオ生成は、時間的同期と意味的コヒーレントな視覚-音響コンテンツを合成することを目的としている。
共同音声・ビデオ生成のためのNative Audio-Visual AlignmentフレームワークであるNAVAを提案する。
NAVAは6.3Bパラメータのみを使用して、優れたビデオ品質、正確なオーディオ-視覚同期、競合するオーディオ品質、より強力な参照-音色制御を実現する。
- 参考スコア(独自算出の注目度): 30.57516387877705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint audio-video generation aims to synthesize temporally synchronized and semantically coherent visual-acoustic content. However, existing open-source methods mainly rely on either dual-tower designs with posterior alignment or fully unified tri-modal designs that mix textual context, audio and video in one shared space. The former weakens fine-grained audio-video co-evolution, while the latter couples semantic conditioning with low-level synchronization. To address these limitations, we propose NAVA, a Native Audio-Visual Alignment framework for joint audio-video generation. NAVA is built upon context-conditioned native audio-visual alignment: it first establishes audio-video correspondence in a dedicated interaction space, and then uses external context to condition the joint denoising process. Specifically, NAVA is instantiated with an Align-then-Fuse MMDiT architecture, which transitions from modality-aware audio-video alignment to modality-shared joint denoising. Furthermore, we introduce Timbre-in-Context Conditioning to associate reference timbre cues with corresponding speech spans to achieve controllable speech timbre. Experiments on Verse-Bench and Seed-TTS, together with a user study, demonstrate that NAVA achieves superior video quality, precise audio-visual synchronization, competitive audio quality, and stronger reference-timbre controllability using only 6.3B parameters.
- Abstract(参考訳): 共同音声-ビデオ生成は、時間的同期と意味的コヒーレントな視覚-音響コンテンツを合成することを目的としている。
しかし、既存のオープンソース手法は主に、後方アライメントを備えたデュアルトウワー設計と、テキストコンテキスト、オーディオ、ビデオを1つの共有空間で混合する完全に統一された三つのモーダル設計のいずれかに依存している。
前者は微細なオーディオビデオの共進化を弱め、後者は低レベルの同期とセマンティックコンディショニングを結合する。
これらの制約に対処するため,共同音声・ビデオ生成のためのネイティブオーディオ・ビジュアルアライメントフレームワークであるNAVAを提案する。
NAVAは、コンテキスト条件付きネイティブオーディオと視覚のアライメントに基づいて構築されている。
具体的には、NAVAをAlign-then-Fuse MMDiTアーキテクチャでインスタンス化する。
さらに、参照音程と対応する音声スパンを関連づけて制御可能な音声音程を実現するために、Timbre-in-Context Conditioningを導入する。
Verse-Bench と Seed-TTS の実験は、ユーザスタディとともに、NAVA が優れたビデオ品質、正確な音声-視覚同期、競合するオーディオ品質、そして6.3B パラメータのみを用いたより強力な参照-音色制御を実現することを示した。
関連論文リスト
- CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [66.96392168346851]
AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
論文 参考訳(メタデータ) (2025-12-11T11:58:53Z) - ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。