論文の概要: Exploring Robust Face-Voice Matching in Multilingual Environments
- arxiv url: http://arxiv.org/abs/2407.19875v1
- Date: Mon, 29 Jul 2024 10:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:16:11.256418
- Title: Exploring Robust Face-Voice Matching in Multilingual Environments
- Title(参考訳): 多言語環境におけるロバストな顔-声マッチングの探索
- Authors: Jiehui Tang, Xiaofei Wang, Zhen Xiao, Jiayi Liu, Xueliang Liu, Richang Hong,
- Abstract要約: We focus on the impact of different languages in face-voice matching by build on Fusion and Orthogonal Projection (FOP)。
提案手法は,V2-EHデータセットで20.07,V1-EUデータセットで21.76の誤差率(EER)を達成した。
- 参考スコア(独自算出の注目度): 37.73663240709469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Team Xaiofei's innovative approach to exploring Face-Voice Association in Multilingual Environments (FAME) at ACM Multimedia 2024. We focus on the impact of different languages in face-voice matching by building upon Fusion and Orthogonal Projection (FOP), introducing four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation, and score polarization strategy. Our dual-branch structure serves as an auxiliary mechanism to better integrate and provide more comprehensive information. We also introduce a dynamic weighting mechanism for various sample pairs to optimize learning. Data augmentation techniques are employed to enhance the model's generalization across diverse conditions. Additionally, score polarization strategy based on age and gender matching confidence clarifies and accentuates the final results. Our methods demonstrate significant effectiveness, achieving an equal error rate (EER) of 20.07 on the V2-EH dataset and 21.76 on the V1-EU dataset.
- Abstract(参考訳): 本稿では,ACM Multimedia 2024において,FAME(Face-Voice Association in Multilingual Environments)を探求するチームXaiofeiの革新的なアプローチについて述べる。
We focus on the impact of different languages in face-voice matching by building on Fusion and Orthogonal Projection (FOP), introduced four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation and score polarization strategy。
私たちの二重ブランチ構造は、より統合し、より包括的な情報を提供する補助的なメカニズムとして機能します。
また,様々なサンプルペアの動的重み付け機構を導入し,学習を最適化する。
データ拡張技術は、様々な条件にまたがってモデルの一般化を強化するために使用される。
さらに、年齢と性別の一致した信頼度に基づくスコア偏極戦略は、最終的な結果を明確化し、アクセントする。
提案手法は,V2-EHデータセットで20.07,V1-EUデータセットで21.76の誤差率(EER)を達成した。
関連論文リスト
- Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis [0.808899919316203]
言語間ABSAのための新しいフレームワークであるMulti-Scale and Multi-Objective Optimization (MSMO)を提案する。
我々は、異なる文脈環境におけるアスペクト項の特徴を整合させて、言語間の文レベルとアスペクトレベルのアライメントを実現する。
その結果,MSMOは複数の言語やモデルにまたがって最先端の性能を実現することで,言語間ABSAを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-19T13:43:33Z) - DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis [41.29318462528406]
本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。
このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。
相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
論文 参考訳(メタデータ) (2024-12-16T10:03:44Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - INTERACTION: A Generative XAI Framework for Natural Language Inference
Explanations [58.062003028768636]
現在のXAIアプローチは、ひとつの説明を提供することにのみ焦点をあてています。
本稿では、生成型XAIフレームワーク、InterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional variational autO-eNcoder)を提案する。
提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。
論文 参考訳(メタデータ) (2022-09-02T13:52:39Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。