論文の概要: Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation
- arxiv url: http://arxiv.org/abs/2405.10084v1
- Date: Thu, 16 May 2024 13:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:12:27.824402
- Title: Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation
- Title(参考訳): 移動レンズによるディープオーディオ検索の再検討
- Authors: Manh Luong, Khai Nguyen, Nhat Ho, Reza Haf, Dinh Phung, Lizhen Qu,
- Abstract要約: 音声テキスト検索問題に対するm-LTM(mini-batch Learning-to-match)フレームワークを提案する。
本研究では,AudioCaps,Clotho,ESC-50の3つのデータセットを用いて,音声テキストマッチング問題の実験を行った。
提案手法は,SOTA性能を実現するリッチで表現力豊かな関節埋め込み空間を学習することができる。
- 参考スコア(独自算出の注目度): 46.657781785006506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Learning-to-match (LTM) framework proves to be an effective inverse optimal transport approach for learning the underlying ground metric between two sources of data, facilitating subsequent matching. However, the conventional LTM framework faces scalability challenges, necessitating the use of the entire dataset each time the parameters of the ground metric are updated. In adapting LTM to the deep learning context, we introduce the mini-batch Learning-to-match (m-LTM) framework for audio-text retrieval problems. This framework leverages mini-batch subsampling and Mahalanobis-enhanced family of ground metrics. Moreover, to cope with misaligned training data in practice, we propose a variant using partial optimal transport to mitigate the harm of misaligned data pairs in training data. We conduct extensive experiments on audio-text matching problems using three datasets: AudioCaps, Clotho, and ESC-50. Results demonstrate that our proposed method is capable of learning rich and expressive joint embedding space, which achieves SOTA performance. Beyond this, the proposed m-LTM framework is able to close the modality gap across audio and text embedding, which surpasses both triplet and contrastive loss in the zero-shot sound event detection task on the ESC-50 dataset. Notably, our strategy of employing partial optimal transport with m-LTM demonstrates greater noise tolerance than contrastive loss, especially under varying noise ratios in training data on the AudioCaps dataset. Our code is available at https://github.com/v-manhlt3/m-LTM-Audio-Text-Retrieval
- Abstract(参考訳): LTM(Learning-to-match)フレームワークは、2つのデータソース間の基盤となる基底距離を学習し、その後のマッチングを容易にするために効果的な逆最適輸送アプローチであることが証明されている。
しかし、従来のLTMフレームワークはスケーラビリティの問題に直面しており、地上メトリックのパラメータが更新されるたびにデータセット全体を使用する必要がある。
ディープラーニングの文脈にLTMを適用する際に,音声テキスト検索問題に対するm-LTM(mini-batch Learning-to-match)フレームワークを導入する。
このフレームワークは、ミニバッチサブサンプリングとマハラノビス強化された地上測定値の族を利用する。
さらに,非整合トレーニングデータに対処するため,トレーニングデータにおける不整合データペアの害を軽減するために,部分的最適輸送を用いた変種を提案する。
本稿では,AudioCaps,Clotho,ESC-50の3つのデータセットを用いて,音声テキストマッチング問題に関する広範な実験を行った。
提案手法は,SOTA性能を実現するリッチで表現力豊かな関節埋め込み空間を学習できることを示す。
これ以外にも、提案したm-LTMフレームワークは、ESC-50データセット上のゼロショット音声イベント検出タスクにおいて、トリプルトとコントラストの両方の損失を克服する、オーディオとテキストの埋め込み間のモダリティギャップを埋めることができる。
特に,m-LTMを用いた部分的最適輸送の戦略は,特にAudioCapsデータセットのトレーニングデータにおけるノイズ比の異なる場合において,コントラスト損失よりも高い雑音耐性を示す。
私たちのコードはhttps://github.com/v-manhlt3/m-LTM-Audio-Text-Retrievalで利用可能です。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation [1.3586572110652484]
少数のクラスインクリメンタルな学習は、限られた受信データから生じる課題に対処する。
我々は、表現空間を洗練させ、識別力を高め、より良い一般化をもたらすための教師付きコントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-07-27T14:16:25Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Noisy Correspondence Learning with Meta Similarity Correction [22.90696057856008]
マルチモーダル学習は マルチメディアデータ間の 正しい対応に依存しています
最も広く使われているデータセットはインターネットから収集され、必然的にミスマッチしたペアを含んでいる。
本稿では,Meta similarity Correction Network(MSCN)を提案する。
論文 参考訳(メタデータ) (2023-04-13T05:20:45Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Environmental sound analysis with mixup based multitask learning and
cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文 参考訳(メタデータ) (2021-03-30T05:11:53Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。