論文の概要: COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings
- arxiv url: http://arxiv.org/abs/2605.29628v1
- Date: Thu, 28 May 2026 09:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.091391
- Title: COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings
- Title(参考訳): COMET:オーディオテキストマルチモーダルコントラスト埋め込みにおけるモダリティギャップの概念空間分割
- Authors: Yonggang Zhu, Liting Gao, Aidong Men, Wenwu Wang,
- Abstract要約: CLAPの最小二乗特異値分解フレームワークであるCOMETを紹介する。
我々のフレームワークは、共有概念をキャプチャする小さな、解釈可能な部分集合のみが、ほぼ類似性に寄与することを明らかにする。
トレーニング不要な方法でモダリティギャップを緩和する簡易なスペクトルトランケーション法を提案する。
- 参考スコア(独自算出の注目度): 17.01138431493397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Audio Pretraining (CLAP) models are widely used for audio understanding and support modality-agnostic condition swapping in many zero-shot applications. However, their performance is heavily affected by the modality gap between audio and text embeddings. Existing explanations mainly attribute this gap to the cone effect, treating it as a shift between mean embeddings, yet correcting the mean alone yields only limited improvements. Alternative hypotheses, such as information imbalance and dimensionality collapse, have also been proposed, but they remain insufficiently verified and have not been thoroughly studied in the audio domain. Meanwhile, several works attempt to decompose multimodal contrastive embeddings into interpretable concepts, but none explicitly analyze the modality gap from the perspective of concept decomposition. In this work, we introduce COMET (Concept space Organization and Modality gap Explanation with PLS-SVD Transformation), a novel partial least squares singular value decomposition (PLS-SVD) framework for CLAP that unveils a broader perspective of the modality gap. Our framework reveals that only a small, interpretable subset of axes, which captures shared concepts, contributes substantially to similarity computation, and that the mean component represents only partially the modality gap. Building on this insight, we propose a simple spectral truncation method that mitigates the modality gap in a training-free manner. The method enables zero-shot audio captioning with condition swapping to approach fully supervised performance, without requiring large auxiliary memory banks or expensive computation. At the same time, it achieves substantial embedding dimensionality reduction while preserving strong performance on retrieval and audio captioning tasks.
- Abstract(参考訳): コントラスト言語-監査事前訓練(CLAP)モデルは、多くのゼロショットアプリケーションにおいて、音声理解とモダリティ非依存条件スワップのサポートに広く利用されている。
しかし、その性能は、音声とテキストの埋め込みの間のモダリティのギャップによって大きく影響を受ける。
既存の説明では、このギャップは主に円錐効果に起因し、平均埋め込みのシフトとして扱うが、平均だけを修正すれば、限られた改善しか得られない。
情報不均衡や次元崩壊といった別の仮説も提案されているが、その検証は不十分であり、オーディオ領域では十分に研究されていない。
一方、いくつかの研究は多モードのコントラスト埋め込みを解釈可能な概念に分解しようとするが、概念分解の観点からモダリティギャップを明示的に分析するものではない。
本研究では,CLAPの最小二乗特異値分解(PLS-SVD)フレームワークであるCOMET(Concept Space Organization and Modality gap Explanation with PLS-SVD Transformation)を紹介する。
我々のフレームワークは、共有概念をキャプチャする小さな解釈可能な部分集合のみが類似性計算に実質的に寄与し、平均成分が部分的にモダリティギャップのみを表すことを明らかにしている。
この知見に基づいて、トレーニング不要な方法でモダリティギャップを緩和する単純なスペクトルトランケーション法を提案する。
コンディションスワップ付きゼロショット音声キャプションにより、大規模な補助記憶バンクや高価な計算を必要とせず、完全に教師付きパフォーマンスに近づくことができる。
同時に、検索および音声キャプションタスクの強い性能を維持しながら、かなりの埋め込み次元の低減を実現している。
関連論文リスト
- Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs [15.914430317382077]
音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
論文 参考訳(メタデータ) (2026-03-02T06:21:43Z) - Semantic Compression via Multimodal Representation Learning [18.229658255981505]
マルチモーダル表現学習は、共有潜在空間における様々なモダリティを整列させる埋め込みを生成する。
鍵となるオープンな問題は、セマンティック圧縮を実現する方法であり、マルチモーダル埋め込みのメモリフットプリントを減らすことである。
学習後セマンティック圧縮の実現可能性とモダリティギャップの低減との間には,強い関係があることを実証する。
論文 参考訳(メタデータ) (2025-09-29T08:16:38Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP [22.076206386214565]
コントラスト言語-画像事前学習は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
幾何学的な観点から、CLIP埋め込み空間は明らかにモダリティギャップを持つ。
本稿では,AlignCLIPが組込みのクロスモーダルアライメントにおいて顕著な拡張を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。