論文の概要: Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval
- arxiv url: http://arxiv.org/abs/2408.13705v1
- Date: Thu, 15 Aug 2024 02:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-01 16:52:18.448427
- Title: Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval
- Title(参考訳): クロスモーダルなDenoising:音声画像検索のための新しい訓練パラダイム
- Authors: Lifeng Zhou, Yuke Li, Rui Deng, Yuting Yang, Haoqi Zhu,
- Abstract要約: 本稿では,クロスモーダル・インタラクションを強化するために,クロスモーダル・デノイング(CMD)という,効果的なフレームワークと新しい学習タスクを導入する。
具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。
実験の結果,Flickr8kデータセットでは平均R@1で2.0%,SpkenCOCOデータセットでは平均R@1で1.7%,最先端の手法では平均R@1で2.0%向上していることがわかった。
- 参考スコア(独自算出の注目度): 16.968343177634015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of speech-image retrieval relies on establishing an effective alignment between speech and image. Existing methods often model cross-modal interaction through simple cosine similarity of the global feature of each modality, which fall short in capturing fine-grained details within modalities. To address this issue, we introduce an effective framework and a novel learning task named cross-modal denoising (CMD) to enhance cross-modal interaction to achieve finer-level cross-modal alignment. Specifically, CMD is a denoising task designed to reconstruct semantic features from noisy features within one modality by interacting features from another modality. Notably, CMD operates exclusively during model training and can be removed during inference without adding extra inference time. The experimental results demonstrate that our framework outperforms the state-of-the-art method by 2.0% in mean R@1 on the Flickr8k dataset and by 1.7% in mean R@1 on the SpokenCOCO dataset for the speech-image retrieval tasks, respectively. These experimental results validate the efficiency and effectiveness of our framework.
- Abstract(参考訳): 音声画像検索の成功は、音声と画像の効果的なアライメントを確立することに依存する。
既存の手法はしばしば、各モダリティのグローバルな特徴の単純なコサイン類似性を通じてモダリティ間の相互作用をモデル化するが、モダリティ内の細かな詳細を捉えるには不十分である。
この問題に対処するために,クロスモーダル・デノナイジング(CMD)という,より詳細なクロスモーダルアライメントを実現するための効果的なフレームワークと,新たな学習タスクを導入する。
具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。
特に、CMDはモデルトレーニング中にのみ動作し、追加の推論時間を追加することなく推論中に削除できる。
実験の結果,Flickr8kでは平均R@1で,音声画像検索では平均R@1で平均R@1で2.0%,音声画像検索では平均R@1で平均R@1で0。
これらの実験結果は,本フレームワークの有効性と有効性について検証した。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Coarse-to-fine Alignment Makes Better Speech-image Retrieval [15.662564676905035]
本稿では,音声画像検索のための新しいフレームワークを提案する。
我々は、音声と画像の表現を粗いレベルで整列させるために、音声画像コントラスト学習タスク(SIC)を利用する。
我々のフレームワークは、2つのベンチマークデータセット上で、R@1で最先端の手法を4%以上上回ります。
論文 参考訳(メタデータ) (2024-08-15T02:21:49Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。