論文の概要: Joint Multimodal Contrastive Learning for Robust Spoken Term Detection and Keyword Spotting
- arxiv url: http://arxiv.org/abs/2512.14115v1
- Date: Tue, 16 Dec 2025 05:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.611039
- Title: Joint Multimodal Contrastive Learning for Robust Spoken Term Detection and Keyword Spotting
- Title(参考訳): ロバストスポット項検出とキーワードスポッティングのための共同マルチモーダルコントラスト学習
- Authors: Ramesh Gundluru, Shubham Gupta, Sri Rama Murty K,
- Abstract要約: 本研究では,共用組込み空間における音響・クロスモーダル監視を統一するマルチモーダルコントラスト学習フレームワークを提案する。
i) CLAPの損失にインスパイアされた音声テキストのコントラスト学習と, (ii) 音声音声のコントラスト学習をDeep Word Discrimination (DWD) の損失で同時に最適化し, クラス内コンパクト性とクラス間分離性を高める。
提案手法は,STDとKWSの両方を柔軟にサポートしながら,単語識別タスクにおける既存のAWEベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 13.48022380380599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic Word Embeddings (AWEs) improve the efficiency of speech retrieval tasks such as Spoken Term Detection (STD) and Keyword Spotting (KWS). However, existing approaches suffer from limitations, including unimodal supervision, disjoint optimization of audio-audio and audio-text alignment, and the need for task-specific models. To address these shortcomings, we propose a joint multimodal contrastive learning framework that unifies both acoustic and cross-modal supervision in a shared embedding space. Our approach simultaneously optimizes: (i) audio-text contrastive learning, inspired by the CLAP loss, to align audio and text representations and (ii) audio-audio contrastive learning, via Deep Word Discrimination (DWD) loss, to enhance intra-class compactness and inter-class separation. The proposed method outperforms existing AWE baselines on word discrimination task while flexibly supporting both STD and KWS. To our knowledge, this is the first comprehensive approach of its kind.
- Abstract(参考訳): アコースティックワード埋め込み(AWE)は、音声検索タスク(STD)やキーワードスポッティング(KWS)の効率を改善する。
しかし、既存のアプローチは、一元管理、オーディオオーディオと音声テキストアライメントの解離最適化、タスク固有のモデルの必要性といった制限に悩まされている。
これらの欠点に対処するために,共用組込み空間における音響的・相互監視を統一するマルチモーダルコントラスト学習フレームワークを提案する。
私たちのアプローチは、同時に最適化します。
(i)CLAPの損失にインスパイアされた音声テキストコントラスト学習は、音声とテキストの表現を整列させる。
(II) 音声・音声のコントラスト学習, ディープ・ワード・差別化(DWD)の損失により, クラス内コンパクト性とクラス間分離性を高める。
提案手法は,STDとKWSの両方を柔軟にサポートしながら,単語識別タスクにおける既存のAWEベースラインよりも優れている。
私たちの知る限りでは、この種の包括的アプローチとしてはこれが初めてのものです。
関連論文リスト
- Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Adversarial Deep Metric Learning for Cross-Modal Audio-Text Alignment in Open-Vocabulary Keyword Spotting [8.401528952094413]
テキスト入力に基づくオープン語彙キーワードスポッティング(KWS)では、音響とテキストの埋め込みは通常、音素または発話レベルで比較される。
ディープ・メトリック・ラーニング(DML)を用いて音響およびテキストエンコーダを最適化し,共有埋め込み空間におけるマルチモーダル埋め込みの直接比較を可能にする。
異質なモダリティ表現における領域ギャップを低減するためのモダリティ適応学習(MAL)を提案する。
論文 参考訳(メタデータ) (2025-05-22T14:49:46Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。