論文の概要: DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap
- arxiv url: http://arxiv.org/abs/2503.12131v1
- Date: Sat, 15 Mar 2025 13:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.739341
- Title: DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap
- Title(参考訳): DiffGAP: クロスモデルギャップをブリッジするコントラスト空間における軽量拡散モジュール
- Authors: Shentong Mo, Zehua Chen, Fan Bao, Jun Zhu,
- Abstract要約: DiffGAPは、軽量な生成モジュールをコントラスト空間に組み込んだ新しいアプローチである。
VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 38.5017989456818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in cross-modal understanding and generation, notably through models like CLAP (Contrastive Language-Audio Pretraining) and CAVP (Contrastive Audio-Visual Pretraining), have significantly enhanced the alignment of text, video, and audio embeddings via a single contrastive loss. However, these methods often overlook the bidirectional interactions and inherent noises present in each modality, which can crucially impact the quality and efficacy of cross-modal integration. To address this limitation, we introduce DiffGAP, a novel approach incorporating a lightweight generative module within the contrastive space. Specifically, our DiffGAP employs a bidirectional diffusion process tailored to bridge the cross-modal gap more effectively. This involves a denoising process on text and video embeddings conditioned on audio embeddings and vice versa, thus facilitating a more nuanced and robust cross-modal interaction. Our experimental results on VGGSound and AudioCaps datasets demonstrate that DiffGAP significantly improves performance in video/text-audio generation and retrieval tasks, confirming its effectiveness in enhancing cross-modal understanding and generation capabilities.
- Abstract(参考訳): 特にCLAP(Contrastive Language-Audio Pretraining)やCAVP(Contrastive Audio-Visual Pretraining)といったモデルによるクロスモーダル理解と生成に関する最近の研究は、テキスト、ビデオ、オーディオ埋め込みのアライメントを、単一のコントラスト的損失によって大幅に向上させた。
しかしながら、これらの手法は、各モードに存在する双方向の相互作用と固有のノイズを見落とし、それは相互統合の品質と有効性に決定的に影響を及ぼす。
この制限に対処するために、コントラスト空間に軽量な生成モジュールを組み込んだ新しいアプローチであるDiffGAPを導入する。
具体的には、我々のDiffGAPでは、より効果的にクロスモーダルギャップを橋渡しするために、双方向拡散プロセスを採用しています。
これには、オーディオ埋め込みに条件付されたテキストとビデオの埋め込みに関する記述プロセスと、その逆も伴うため、よりニュアンスで堅牢な相互モーダルなインタラクションが促進される。
VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を著しく向上し,クロスモーダル理解と生成能力の向上に有効であることが確認された。
関連論文リスト
- DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating Fusion [1.292190360867547]
現在のオーディオ・ビジュアル・ソース分離法は主に2つの設計戦略を採用する。
最初の戦略は、エンコーダのボトルネック層にオーディオと視覚的特徴を融合させ、続いてデコーダを通じて融合した特徴を処理することである。
第2の戦略は直接融合を避け、代わりにオーディオと視覚的特徴の相互作用を扱うためにデコーダに依存している。
本稿では,モダリティ融合度を動的に調整するゲーティング機構に基づく動的融合法を提案する。
論文 参考訳(メタデータ) (2025-04-30T06:55:24Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds [72.83227312675174]
本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。
我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。
また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
論文 参考訳(メタデータ) (2025-03-17T20:06:48Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。