論文の概要: Baton: Explicit Semantic Blueprints for Joint Video-Audio Generation
- arxiv url: http://arxiv.org/abs/2605.25195v2
- Date: Mon, 01 Jun 2026 01:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.425236
- Title: Baton: Explicit Semantic Blueprints for Joint Video-Audio Generation
- Title(参考訳): Baton: ビデオとオーディオの同時生成のためのセマンティックなブループリント
- Authors: Shuyuan Tu, Qi Tian, Zihan Yang, Yue Wu, Xintong Han, Weijie Kong, Jiangfeng Xiong, Jian-Wei Zhang, Zhao Zhong, Liefeng Bo, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: Batonは、共同ビデオオーディオ生成に明示的なセマンティックプランニングを導入するフレームワークである。
我々の重要な洞察は、粗いテキストガイダンスを意味的にリッチでモダリティを意識したトークンで補完することで、細かなセマンティックディテールを同時に復元できるということです。
ベンチマークの実験は、バトンの有効性を質的にも定量的にも示している。
- 参考スコア(独自算出の注目度): 113.24577778437295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current open-source diffusion models struggle to generate stable and synchronized audio-visual content, particularly in scenarios demanding complex semantic reasoning. The root cause is that existing methods rely on coarse text embeddings from off-the-shelf encoders to guide audio-video denoising, which discards fine-grained semantics and, critically, lacks a shared long-horizon plan, leading to uncoordinated denoising trajectories and fragile cross-modal alignment. We propose Baton, the first framework that introduces explicit semantic planning into joint video-audio generation. Our key insight is that complementing coarse text guidance with semantically rich, modality-aware planned tokens, jointly reasoned and mutually aligned before denoising, can simultaneously restore fine-grained semantic detail and establish a shared blueprint that coordinates both audio and video denoising trajectories. Concretely, Baton first introduces the VA-Planner, a multimodal language model equipped with dual semantic alignment towers, where learnable queries cross-attend to both video and audio features to produce a pair of semantically aligned video and audio planned tokens as keyframe-level blueprints. These planned tokens are injected into the diffusion backbone via cross-attention layers, providing temporally grounded guidance complementary to coarse text embeddings. Since planned tokens do not share one-to-one spatial-temporal correspondence with diffusion latents, we further propose Relative Semantic RoPE, a relative positional encoding that maps planned tokens and latents into a shared spatial-temporal coordinate frame, enabling each latent to accurately attend to its positionally corresponding semantic cues. Experiments on benchmarks show the effectiveness of Baton both qualitatively and quantitatively.
- Abstract(参考訳): 現在のオープンソース拡散モデルは、特に複雑なセマンティック推論を必要とするシナリオにおいて、安定的で同期されたオーディオ視覚コンテンツを生成するのに苦労している。
根本原因は、既存の手法が、細粒度のセマンティクスを捨て、重要なことに、共有された長い水平計画が欠如しており、非コーディネートなデノイング軌道と脆弱なクロスモーダルアライメントをもたらす、オフザシェルフエンコーダからの粗いテキスト埋め込みに依存していることである。
共同ビデオオーディオ生成に明示的なセマンティックプランニングを導入する最初のフレームワークであるBatonを提案する。
我々のキーとなる洞察は、大まかなテキストガイダンスを意味的にリッチで、モダリティを意識した計画トークンで補完することで、微粒なセマンティックディテールを同時に復元し、オーディオとビデオの両方の軌跡をコーディネートする共有青写真を作成することができるということです。
具体的には、Baton氏が最初に紹介したVA-Plannerは、デュアルセマンティックアライメントタワーを備えたマルチモーダル言語モデルで、学習可能なクエリをビデオとオーディオの両方の機能にクロスアタッチして、キーフレームレベルのブループリントとしてセマンティックアライメントされたビデオとオーディオの計画トークンのペアを生成する。
これらの計画されたトークンは、クロスアテンション層を介して拡散バックボーンに注入され、粗いテキスト埋め込みを補完する時間的に根拠付けられたガイダンスを提供する。
計画されたトークンは拡散遅延と1対1の時空間対応を共有しないため,相対的な位置符号化法であるRelative Semantic RoPEを提案する。
ベンチマークの実験は、バトンの有効性を質的にも定量的にも示している。
関連論文リスト
- Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation [50.411841997631484]
We present Unison, a unified framework that promote coherence across the motion, speech, and sound modalities。
We show that Unison achieves state-of-the-art performance in audio perceptual quality and cross-modal synchro。
論文 参考訳(メタデータ) (2026-05-09T06:32:54Z) - Denoise and Align: Diffusion-Driven Foreground Knowledge Prompting for Open-Vocabulary Temporal Action Detection [24.57005070272218]
Open-Vocabulary Temporal Action Detection (OV-TAD)は、見えないビデオのアクションセグメントをローカライズし、分類することを目的としている。
DFAlignは拡散に基づく認知を利用して、アクションビデオアライメントのガイダンスのための前景知識を生成する最初のフレームワークである。
提案手法は2つのOV-TADベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-20T14:18:27Z) - Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization [1.1242490155213278]
HILBERTは文書レベルの音声テキスト表現を学習するための横断的フレームワークである。
HILBERTは意味論的に意味のあるロングシーケンス表現を学習し、高度に不均衡なマルチクラス設定において優れた性能を実現する。
論文 参考訳(メタデータ) (2026-04-17T17:07:35Z) - CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。