論文の概要: Exploring Robust Face-Voice Matching in Multilingual Environments
- arxiv url: http://arxiv.org/abs/2407.19875v1
- Date: Mon, 29 Jul 2024 10:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:16:11.256418
- Title: Exploring Robust Face-Voice Matching in Multilingual Environments
- Title(参考訳): 多言語環境におけるロバストな顔-声マッチングの探索
- Authors: Jiehui Tang, Xiaofei Wang, Zhen Xiao, Jiayi Liu, Xueliang Liu, Richang Hong,
- Abstract要約: We focus on the impact of different languages in face-voice matching by build on Fusion and Orthogonal Projection (FOP)。
提案手法は,V2-EHデータセットで20.07,V1-EUデータセットで21.76の誤差率(EER)を達成した。
- 参考スコア(独自算出の注目度): 37.73663240709469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Team Xaiofei's innovative approach to exploring Face-Voice Association in Multilingual Environments (FAME) at ACM Multimedia 2024. We focus on the impact of different languages in face-voice matching by building upon Fusion and Orthogonal Projection (FOP), introducing four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation, and score polarization strategy. Our dual-branch structure serves as an auxiliary mechanism to better integrate and provide more comprehensive information. We also introduce a dynamic weighting mechanism for various sample pairs to optimize learning. Data augmentation techniques are employed to enhance the model's generalization across diverse conditions. Additionally, score polarization strategy based on age and gender matching confidence clarifies and accentuates the final results. Our methods demonstrate significant effectiveness, achieving an equal error rate (EER) of 20.07 on the V2-EH dataset and 21.76 on the V1-EU dataset.
- Abstract(参考訳): 本稿では,ACM Multimedia 2024において,FAME(Face-Voice Association in Multilingual Environments)を探求するチームXaiofeiの革新的なアプローチについて述べる。
We focus on the impact of different languages in face-voice matching by building on Fusion and Orthogonal Projection (FOP), introduced four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation and score polarization strategy。
私たちの二重ブランチ構造は、より統合し、より包括的な情報を提供する補助的なメカニズムとして機能します。
また,様々なサンプルペアの動的重み付け機構を導入し,学習を最適化する。
データ拡張技術は、様々な条件にまたがってモデルの一般化を強化するために使用される。
さらに、年齢と性別の一致した信頼度に基づくスコア偏極戦略は、最終的な結果を明確化し、アクセントする。
提案手法は,V2-EHデータセットで20.07,V1-EUデータセットで21.76の誤差率(EER)を達成した。
関連論文リスト
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - DKE-Research at SemEval-2024 Task 2: Incorporating Data Augmentation with Generative Models and Biomedical Knowledge to Enhance Inference Robustness [27.14794371879541]
本稿では,生物医学的自然言語推論のためのモデルロバスト性向上のための新しいデータ拡張手法を提案する。
意味摂動とドメイン固有の語彙置換によって合成例を生成することにより,多様性の向上とショートカット学習の削減を図る。
マルチタスク学習とDeBERTaアーキテクチャを組み合わせることで,NLI4CT 2024ベンチマークで大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-14T10:02:47Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - INTERACTION: A Generative XAI Framework for Natural Language Inference
Explanations [58.062003028768636]
現在のXAIアプローチは、ひとつの説明を提供することにのみ焦点をあてています。
本稿では、生成型XAIフレームワーク、InterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional variational autO-eNcoder)を提案する。
提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。
論文 参考訳(メタデータ) (2022-09-02T13:52:39Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。