論文の概要: Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss
- arxiv url: http://arxiv.org/abs/2604.23323v1
- Date: Sat, 25 Apr 2026 14:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.270084
- Title: Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss
- Title(参考訳): クロスモーダルアテンションとハイブリッド損失によるロバスト音声テキスト検索
- Authors: Meizhu Liu, Matthew Rowe, Amit Agarwal, Michael Avendi, Yassi Abbasi, Hitesh Laxmichand Patel, Paul Li, Kyu J. Han, Tao Sheng, Sujith Ravi, Dan Roth,
- Abstract要約: クロスモーダルな埋め込み処理モジュールを用いて音声とテキストの埋め込みを洗練する新しいマルチモーダル検索フレームワークを提案する。
提案手法は,サイレント・アウェア・チャンキングとアテンション・ベース・プールにより,長音・雑音の音声(SNR 5~15)を効率よく処理する。
- 参考スコア(独自算出の注目度): 37.71541019854872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-text retrieval enables semantic alignment between audio content and natural language queries, supporting applications in multimedia search, accessibility, and surveillance. However, current state-of-the-art approaches struggle with long, noisy, and weakly labeled audio due to their reliance on contrastive learning and large-batch training. We propose a novel multimodal retrieval framework that refines audio and text embeddings using a cross-modal embedding refinement module combining transformer-based projection, linear mapping, and bidirectional attention. To further improve robustness, we introduce a hybrid loss function blending cosine similarity, $\mathcal{L}_{1}$, and contrastive objectives, enabling stable training even under small-batch constraints. Our approach efficiently handles long-form and noisy audio (SNR 5 to 15) via silence-aware chunking and attention-based pooling. Experiments on benchmark datasets demonstrate improvements over prior methods.
- Abstract(参考訳): 音声テキスト検索は、音声コンテンツと自然言語クエリ間のセマンティックアライメントを可能にし、マルチメディア検索、アクセシビリティ、監視におけるアプリケーションをサポートする。
しかし、現在の最先端のアプローチは、対照的な学習と大規模なバッチトレーニングに依存しているため、長く、騒々しく、そして弱いラベル付けされたオーディオに苦しむ。
本稿では,トランスジェクション,リニアマッピング,双方向アテンションを組み合わせたクロスモーダル埋め込み改良モジュールを用いて,音声とテキストの埋め込みを洗練する新しいマルチモーダル検索フレームワークを提案する。
さらにロバスト性を向上させるために,コサイン類似性,$\mathcal{L}_{1}$,および対照的な目的を混合したハイブリッド損失関数を導入し,小バッチ制約下でも安定したトレーニングを可能にする。
提案手法は,サイレント・アウェア・チャンキングとアテンション・ベース・プールにより,長音・雑音の音声(SNR 5~15)を効率よく処理する。
ベンチマークデータセットの実験では、以前の方法よりも改善が示されている。
関連論文リスト
- ATIR: Towards Audio-Text Interleaved Contextual Retrieval [63.68521448682396]
本稿では,Audio-Text Interleaved contextual Retrieval (ATIR)タスクを導入する。
このベンチマークは、意味検索における既存の音声検索データセットの限界を実質的に解決する。
論文 参考訳(メタデータ) (2026-04-22T07:11:58Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Continual Audio-Visual Sound Separation [35.06195539944879]
本稿では,新しいクラスに対して連続的に音源を分離することを目的とした,連続的な音声・視覚的音源分離タスクを提案する。
本稿では,クロスモーダルなセマンティックな類似性を維持するために,クロスモーダルな類似度蒸留制限(CrossSDC)を提案する。
実験により、ContAV-Sepは破滅的な忘れを効果的に軽減し、他の継続的な学習ベースラインと比較して著しく優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-11-05T07:09:14Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。