論文の概要: Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval
- arxiv url: http://arxiv.org/abs/2211.03434v1
- Date: Mon, 7 Nov 2022 10:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:15:37.283875
- Title: Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval
- Title(参考訳): 音声-視覚クロスモーダル検索のためのラベル空間における完全クロストリップレット損失
- Authors: Donghuo Zeng, Yanan Wang, Jianming Wu, and Kazushi Ikeda
- Abstract要約: クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
- 参考スコア(独自算出の注目度): 7.459223771397159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The heterogeneity gap problem is the main challenge in cross-modal retrieval.
Because cross-modal data (e.g. audiovisual) have different distributions and
representations that cannot be directly compared. To bridge the gap between
audiovisual modalities, we learn a common subspace for them by utilizing the
intrinsic correlation in the natural synchronization of audio-visual data with
the aid of annotated labels. TNN-CCCA is the best audio-visual cross-modal
retrieval (AV-CMR) model so far, but the model training is sensitive to hard
negative samples when learning common subspace by applying triplet loss to
predict the relative distance between inputs. In this paper, to reduce the
interference of hard negative samples in representation learning, we propose a
new AV-CMR model to optimize semantic features by directly predicting labels
and then measuring the intrinsic correlation between audio-visual data using
complete cross-triple loss. In particular, our model projects audio-visual
features into label space by minimizing the distance between predicted label
features after feature projection and ground label representations. Moreover,
we adopt complete cross-triplet loss to optimize the predicted label features
by leveraging the relationship between all possible similarity and
dissimilarity semantic information across modalities. The extensive
experimental results on two audio-visual double-checked datasets have shown an
improvement of approximately 2.1% in terms of average MAP over the current
state-of-the-art method TNN-CCCA for the AV-CMR task, which indicates the
effectiveness of our proposed model.
- Abstract(参考訳): 異質性ギャップ問題はクロスモーダル検索の主要な課題である。
クロスモーダルデータ(例えばaudiovisual)は、直接比較できない異なる分布と表現を持っているためである。
そこで,音声・視覚データの自然同期における内在的相関を注釈付きラベルの助けを借りて,それらの共通部分空間を学習する。
TNN-CCCAは、これまでで最高のオーディオ・ビジュアル・クロスモーダル検索(AV-CMR)モデルであるが、入力間の相対距離を予測するためにトリプルトロスを適用することで、共通部分空間を学習する際の強負のサンプルに敏感である。
本稿では,表現学習におけるハード・ネガティブなサンプルの干渉を減らすために,ラベルを直接予測することで意味的特徴を最適化し,完全クロストリプル損失を用いた音声・視覚データ間の固有相関を測定する新しいav-cmrモデルを提案する。
特に,特徴投影後の予測ラベル特徴と基底ラベル表現との間の距離を最小化することにより,音声・視覚特徴をラベル空間に投影する。
さらに,全ての類似点と類似点の相違点情報の関係を利用して,予測されたラベル特徴の最適化を行う。
2つの視聴覚二重チェックデータセットの広範な実験結果から,av-cmrタスクにおける現在の最先端手法tnn-cccaの平均マップの約2.1%の改善がみられ,提案モデルの有効性が示された。
関連論文リスト
- Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval [16.968343177634015]
本稿では,クロスモーダル・インタラクションを強化するために,クロスモーダル・デノイング(CMD)という,効果的なフレームワークと新しい学習タスクを導入する。
具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。
実験の結果,Flickr8kデータセットでは平均R@1で2.0%,SpkenCOCOデータセットでは平均R@1で1.7%,最先端の手法では平均R@1で2.0%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-15T02:42:05Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Anchor-aware Deep Metric Learning for Audio-visual Retrieval [11.675472891647255]
Metric Learningは、基礎となるデータ構造を捕捉し、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクの性能を向上させることを目的としている。
近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。
しかし、トレーニングデータポイントの不足のため、モデルトレーニングはスペースを完全に探索することができない。
本稿では,この課題に対処するために,AADML(Anchor-aware Deep Metric Learning)手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:44:44Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文 参考訳(メタデータ) (2023-05-16T06:41:25Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。