論文の概要: Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
- arxiv url: http://arxiv.org/abs/2510.11330v1
- Date: Mon, 13 Oct 2025 12:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.356876
- Title: Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
- Title(参考訳): Diffusion-Link:Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
- Authors: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung,
- Abstract要約: Diffusion-Linkは拡散に基づくモダリティブリッジングモジュールである。
オーディオ埋め込みをテキスト埋め込み分布にマッピングする。
これは、拡散に基づくモダリティブリッジによる自動オーディオキャプションへの最初の応用である。
- 参考スコア(独自算出の注目度): 36.21722709167031
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP blocks. To assess the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on Automatic Audio Captioning (AAC); to our knowledge, this is the first application of diffusion-based modality bridging to AAC. We report two results. (1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link reduces the modality gap the most among prior diffusion-based methods and shows a collective migration of audio embeddings toward the text distribution. (2) Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised captioning without external knowledge, with relative gains up to 52.5% and 7.5%, respectively. These findings show that closing the modality gap is pivotal for effective coupling between multimodal encoders and LLMs, and diffusion-based modality bridging offers a promising direction beyond knowledge-retrieval-centric designs. Code will be released upon acceptance https://github.com/DevKiHyun/Diffusion-Link
- Abstract(参考訳): 対照的に、音声-言語事前学習は強力な関節表現をもたらすが、持続的な音声-テキストのモダリティギャップは、多モードエンコーダと大きな言語モデル(LLM)を結合する利点を制限している。
拡散に基づくモダリティブリッジングモジュールであるDiffusion-Linkについて,音声埋め込みをテキスト埋め込み分布に生成的にマッピングする。
モジュールは、凍結したマルチモーダルエンコーダからの出力埋め込みで訓練され、3つの残余のMLPブロックを持つ軽量ネットワークとして実装された。
拡散リンクがマルチモーダルエンコーダ-LLM結合に与える影響を評価するため,我々はAAC(Automatic Audio Captioning)の評価を行った。
私たちは2つの結果を報告します。
1) モーダルギャップ解析: 類似性および幾何学的基準に基づき, 拡散リンクは, 先行拡散法で最大となるモダリティギャップを減らし, テキスト分布へのオーディオ埋め込みの集合的移動を示す。
2)下流AAC:Diffusion-Linkを同一のマルチモーダルLCMベースラインにアタッチすることで、ゼロショットと完全教師付きキャプションの両方でAudioCapsの最先端を実現する。
これらの結果から,マルチモーダルエンコーダとLLMの効果的な結合には,モダリティギャップの閉鎖が重要であることが示唆された。
https://github.com/DevKiHyun/Diffusion-Link
関連論文リスト
- DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap [38.5017989456818]
DiffGAPは、軽量な生成モジュールをコントラスト空間に組み込んだ新しいアプローチである。
VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-15T13:24:09Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。