論文の概要: Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association
- arxiv url: http://arxiv.org/abs/2408.02025v2
- Date: Mon, 19 Aug 2024 05:14:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:39:16.033803
- Title: Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association
- Title(参考訳): 多言語音声対面アソシエーションのためのコントラスト学習に基づく連鎖クラスタ
- Authors: Wuyang Chen, Yanjie Sun, Kele Xu, Yong Dou,
- Abstract要約: 本稿では,FAME (Face-Voice Association in Multilingual Environments) 2024の課題に対して,新たな解決策を提案する。
対面音声アソシエーションを強化するために、対照的な学習に基づく連鎖クラスタ法に焦点を当てている。
言語が対面音声の関連性に与える影響について検討した。
その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。
- 参考スコア(独自算出の注目度): 24.843733099049015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The innate correlation between a person's face and voice has recently emerged as a compelling area of study, especially within the context of multilingual environments. This paper introduces our novel solution to the Face-Voice Association in Multilingual Environments (FAME) 2024 challenge, focusing on a contrastive learning-based chaining-cluster method to enhance face-voice association. This task involves the challenges of building biometric relations between auditory and visual modality cues and modelling the prosody interdependence between different languages while addressing both intrinsic and extrinsic variability present in the data. To handle these non-trivial challenges, our method employs supervised cross-contrastive (SCC) learning to establish robust associations between voices and faces in multi-language scenarios. Following this, we have specifically designed a chaining-cluster-based post-processing step to mitigate the impact of outliers often found in unconstrained in the wild data. We conducted extensive experiments to investigate the impact of language on face-voice association. The overall results were evaluated on the FAME public evaluation platform, where we achieved 2nd place. The results demonstrate the superior performance of our method, and we validate the robustness and effectiveness of our proposed approach. Code is available at https://github.com/colaudiolab/FAME24_solution.
- Abstract(参考訳): 人の顔と声の自然的相関は、近年、特に多言語環境の文脈において、魅力的な研究領域として現れている。
本稿では,FAME (Face-Voice Association in Multilingual Environments, FAME) 2024の課題に対する新たな解決策を紹介する。
この課題は、聴覚と視覚のモダリティ間の生体的関係を構築し、データに存在する内在的および外在的変動に対処しながら、異なる言語間の韻律相互依存性をモデル化することである。
これらの難題に対処するため,多言語シナリオにおける音声と顔の堅牢な関連を確立するために,教師付きクロスコントラスト学習(SCC)を用いた。
これに続いて、我々はチェーンクラスタベースの後処理ステップを特別に設計し、野生データに制限されていない場合の異常値の影響を軽減するようにしました。
言語が対面音声の関連性に与える影響について検討した。
結果はFAMEの公開評価プラットフォームで評価され、2位となった。
その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。
コードはhttps://github.com/colaudiolab/FAME24_solution.comから入手できる。
関連論文リスト
- CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - Graph-based Clustering for Detecting Semantic Change Across Time and
Languages [10.058655884092094]
本稿では,高頻度・低周波両方の単語知覚におけるニュアンス変化を時間的・言語的に捉えたグラフベースのクラスタリング手法を提案する。
提案手法は,4言語にわたるSemEval 2020バイナリ分類タスクにおいて,従来のアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-01T21:27:19Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Cross-Platform and Cross-Domain Abusive Language Detection with
Supervised Contrastive Learning [14.93845721221461]
我々は、教師付きコントラスト学習統合メタラーニングアルゴリズムであるSCL-Fishを設計し、目に見えないプラットフォーム上で乱用言語を検出する。
実験により,SCL-FishはEMMや既存の最先端モデルよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-11T19:22:36Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Learning Branched Fusion and Orthogonal Projection for Face-Voice
Association [20.973188176888865]
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
その結果,本手法は現在の最先端手法に対して良好に動作することがわかった。
さらに,複数の言語が対面音声アソシエーションに与える影響を分析するために,モーダル間検証とマッチングタスクを活用している。
論文 参考訳(メタデータ) (2022-08-22T12:23:09Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Improving Neural Cross-Lingual Summarization via Employing Optimal
Transport Distance for Knowledge Distillation [8.718749742587857]
言語間の要約モデルは、2つの言語のトークン間での自己認識機構に依存している。
本稿では,言語間要約のための知識蒸留に基づく新しいフレームワークを提案する。
提案手法は,高解像度および低出力の条件下での最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2021-12-07T03:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。