Fugu-MT 論文翻訳(概要): Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval

論文の概要: Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval

arxiv url: http://arxiv.org/abs/2211.03434v1
Date: Mon, 7 Nov 2022 10:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 18:15:37.283875
Title: Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval
Title（参考訳）: 音声-視覚クロスモーダル検索のためのラベル空間における完全クロストリップレット損失
Authors: Donghuo Zeng, Yanan Wang, Jianming Wu, and Kazushi Ikeda
Abstract要約: クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
参考スコア（独自算出の注目度）: 7.459223771397159
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The heterogeneity gap problem is the main challenge in cross-modal retrieval. Because cross-modal data (e.g. audiovisual) have different distributions and representations that cannot be directly compared. To bridge the gap between audiovisual modalities, we learn a common subspace for them by utilizing the intrinsic correlation in the natural synchronization of audio-visual data with the aid of annotated labels. TNN-CCCA is the best audio-visual cross-modal retrieval (AV-CMR) model so far, but the model training is sensitive to hard negative samples when learning common subspace by applying triplet loss to predict the relative distance between inputs. In this paper, to reduce the interference of hard negative samples in representation learning, we propose a new AV-CMR model to optimize semantic features by directly predicting labels and then measuring the intrinsic correlation between audio-visual data using complete cross-triple loss. In particular, our model projects audio-visual features into label space by minimizing the distance between predicted label features after feature projection and ground label representations. Moreover, we adopt complete cross-triplet loss to optimize the predicted label features by leveraging the relationship between all possible similarity and dissimilarity semantic information across modalities. The extensive experimental results on two audio-visual double-checked datasets have shown an improvement of approximately 2.1% in terms of average MAP over the current state-of-the-art method TNN-CCCA for the AV-CMR task, which indicates the effectiveness of our proposed model.
Abstract（参考訳）: 異質性ギャップ問題はクロスモーダル検索の主要な課題である。クロスモーダルデータ(例えばaudiovisual)は、直接比較できない異なる分布と表現を持っているためである。そこで,音声・視覚データの自然同期における内在的相関を注釈付きラベルの助けを借りて,それらの共通部分空間を学習する。 TNN-CCCAは、これまでで最高のオーディオ・ビジュアル・クロスモーダル検索(AV-CMR)モデルであるが、入力間の相対距離を予測するためにトリプルトロスを適用することで、共通部分空間を学習する際の強負のサンプルに敏感である。本稿では,表現学習におけるハード・ネガティブなサンプルの干渉を減らすために,ラベルを直接予測することで意味的特徴を最適化し,完全クロストリプル損失を用いた音声・視覚データ間の固有相関を測定する新しいav-cmrモデルを提案する。特に,特徴投影後の予測ラベル特徴と基底ラベル表現との間の距離を最小化することにより,音声・視覚特徴をラベル空間に投影する。さらに,全ての類似点と類似点の相違点情報の関係を利用して,予測されたラベル特徴の最適化を行う。 2つの視聴覚二重チェックデータセットの広範な実験結果から,av-cmrタスクにおける現在の最先端手法tnn-cccaの平均マップの約2.1%の改善がみられ,提案モデルの有効性が示された。

関連論文リスト

Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval [16.968343177634015]
本稿では,クロスモーダル・インタラクションを強化するために,クロスモーダル・デノイング(CMD)という,効果的なフレームワークと新しい学習タスクを導入する。具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。実験の結果,Flickr8kデータセットでは平均R@1で2.0%,SpkenCOCOデータセットでは平均R@1で1.7%,最先端の手法では平均R@1で2.0%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-15T02:42:05Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。 MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文参考訳（メタデータ） (2024-07-15T00:47:56Z)
Anchor-aware Deep Metric Learning for Audio-visual Retrieval [11.675472891647255]
Metric Learningは、基礎となるデータ構造を捕捉し、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクの性能を向上させることを目的としている。近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。しかし、トレーニングデータポイントの不足のため、モデルトレーニングはスペースを完全に探索することができない。本稿では,この課題に対処するために,AADML(Anchor-aware Deep Metric Learning)手法を提案する。
論文参考訳（メタデータ） (2024-04-21T22:44:44Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文参考訳（メタデータ） (2023-05-16T06:41:25Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
Linking data separation, visual separation, and classifier performance using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文参考訳（メタデータ） (2023-02-06T10:01:38Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。 MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文参考訳（メタデータ） (2021-12-14T14:14:17Z)
Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文参考訳（メタデータ） (2021-04-01T07:48:29Z)
Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文参考訳（メタデータ） (2020-05-18T10:31:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。