論文の概要: Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder
- arxiv url: http://arxiv.org/abs/2404.09509v1
- Date: Mon, 15 Apr 2024 07:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:19:30.714926
- Title: Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder
- Title(参考訳): マルチモーダルエンコーダによる対面音声アソシエーション学習の改善
- Authors: Chong Peng, Liqiang He, Dan Su,
- Abstract要約: 本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
実験的な証拠は、我々のフレームワークが音声照合、検証、検索タスクにおいて最先端の結果を達成することを証明している。
- 参考スコア(独自算出の注目度): 22.836016610542387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, there have been many achievements in learning the association between voice and face. However, most previous work models rely on cosine similarity or L2 distance to evaluate the likeness of voices and faces following contrastive learning, subsequently applied to retrieval and matching tasks. This method only considers the embeddings as high-dimensional vectors, utilizing a minimal scope of available information. This paper introduces a novel framework within an unsupervised setting for learning voice-face associations. By employing a multimodal encoder after contrastive learning and addressing the problem through binary classification, we can learn the implicit information within the embeddings in a more effective and varied manner. Furthermore, by introducing an effective pair selection method, we enhance the learning outcomes of both contrastive learning and the matching task. Empirical evidence demonstrates that our framework achieves state-of-the-art results in voice-face matching, verification, and retrieval tasks, improving verification by approximately 3%, matching by about 2.5%, and retrieval by around 1.3%.
- Abstract(参考訳): 今日では、声と顔の関係を学ぶ上で多くの成果がある。
しかしながら、従来の作業モデルは、対照的な学習の後、声と顔の類似性を評価するために、コサイン類似性やL2距離に依存し、その後、検索やマッチングタスクに適用される。
この方法では、埋め込みを高次元ベクトルとしてのみ考慮し、利用可能な情報の最小範囲を利用する。
本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
さらに,効果的なペア選択手法を導入することで,コントラスト学習とマッチングタスクの両方の学習結果を向上する。
実験的な証拠は、我々のフレームワークが、音声照合、検証、検索タスク、検証を約3%改善、マッチングを約2.5%改善、検索を約1.3%改善したことを示す。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Multi-Modal Multi-Correlation Learning for Audio-Visual Speech
Separation [38.75352529988137]
音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。
我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。
この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
論文 参考訳(メタデータ) (2022-07-04T04:53:39Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Two-Level Supervised Contrastive Learning for Response Selection in
Multi-Turn Dialogue [18.668723854662584]
本稿では,教師付きコントラスト損失を用いたコントラスト学習を課題に適用する。
我々は,2段階の教師付きコントラスト学習と呼ばれる,教師付きコントラスト学習の新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-01T23:43:36Z) - Contrastive Learning from Demonstrations [0.0]
これらの表現は、ピック・アンド・プレイスを含むいくつかのロボット作業の模倣に適用可能であることを示す。
我々は、タスク関連情報を強化するためにコントラスト学習を適用することで、最近提案された自己教師付き学習アルゴリズムを最適化する。
論文 参考訳(メタデータ) (2022-01-30T13:36:07Z) - Supervised Contrastive Learning for Accented Speech Recognition [7.5253263976291676]
アクセント付き音声認識のための教師付きコントラスト学習フレームワークについて検討する。
比較学習は平均して3.66%(ゼロショット)と3.78%(フルショット)の精度を向上できることを示す。
論文 参考訳(メタデータ) (2021-07-02T09:23:33Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。