論文の概要: Shared Multi-modal Embedding Space for Face-Voice Association
- arxiv url: http://arxiv.org/abs/2512.04814v1
- Date: Thu, 04 Dec 2025 14:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.199603
- Title: Shared Multi-modal Embedding Space for Face-Voice Association
- Title(参考訳): フェースボイスアソシエーションのための共有マルチモーダル埋め込み空間
- Authors: Christopher Simic, Korbinian Riedhammer, Tobias Bocklet,
- Abstract要約: FAME 2026の課題は、フェース・ボイス・アソシエーションのトレーニングと、モデルが訓練されていない言語でのテストという2つの要求されたタスクで構成されている。
提案手法は, 一般的な顔と音声の特徴抽出を併用した一様処理パイプラインを分離し, 年齢差の特徴抽出を補完し, 予測支援を行う。
我々のアプローチはFAME 2026チャレンジで23.99%のEER(Equal-Error Rate)で1位を獲得した。
- 参考スコア(独自算出の注目度): 21.92195248206171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The FAME 2026 challenge comprises two demanding tasks: training face-voice associations combined with a multilingual setting that includes testing on languages on which the model was not trained. Our approach consists of separate uni-modal processing pipelines with general face and voice feature extraction, complemented by additional age-gender feature extraction to support prediction. The resulting single-modal features are projected into a shared embedding space and trained with an Adaptive Angular Margin (AAM) loss. Our approach achieved first place in the FAME 2026 challenge, with an average Equal-Error Rate (EER) of 23.99%.
- Abstract(参考訳): FAME 2026チャレンジは、2つの要求されたタスクで構成されている。
提案手法は, 一般的な顔と音声の特徴抽出を併用した一様処理パイプラインを分離し, 年齢差の特徴抽出を補完し, 予測支援を行う。
結果として得られるシングルモーダル機能は、共有埋め込みスペースに投影され、Adaptive Angular Margin(AAM)損失でトレーニングされる。
我々のアプローチはFAME 2026チャレンジで23.99%のEER(Equal-Error Rate)で1位を獲得した。
関連論文リスト
- Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge [0.0]
我々は,2025年のBehavior Challengeで優勝したビジョンアクション政策を提示する。
BEHAVIOR Challengeは、写真リアリスティックなシミュレーションで50種類の多種多様な家庭用タスクを特徴とする大規模なベンチマークである。
このアプローチは、パブリックとプライベートの両方のリーダボード上の50のタスクすべてに対して、26%のqスコアを実現しています。
論文 参考訳(メタデータ) (2025-12-07T18:08:45Z) - SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Face-voice Association in Multilingual Environments (FAME) 2026 Challenge Evaluation Plan [24.480174322626155]
フェース・ボイス・アソシエーション・イン・マルチリンガル・アソシエーション(FAME) 2026 Challengeは、マルチリンガル・シナリオの下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースラインモデル、タスクの詳細について説明する。
論文 参考訳(メタデータ) (2025-08-06T16:09:47Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から, モデルが良好に機能することのないことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - System Description for the Displace Speaker Diarization Challenge 2023 [0.0]
本稿では,会話環境問題における話者と言語のダイアリゼーションの解決策について述べる(2023年)。
音声によるセグメンション発見にはVAD,これらのセグメントからの特徴抽出にはResnetアーキテクチャをベースとしたCNN,特徴クラスタリングにはスペクトルクラスタリングを併用した。
論文 参考訳(メタデータ) (2024-06-20T21:40:02Z) - The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion
Share & Requests [66.24715220997547]
ACM Multimedia 2023 Paralinguistics Challengeは、明確に定義された条件下で初めて2つの異なる問題に対処する。
Emotion Share Sub-Challengeでは、音声のレグレッションが発生し、Requests Sub-Challengeでは、リクエストと苦情を検出する必要がある。
本稿では,DeepSpectRumツールキットを用いて,事前学習したCNNのサブチャレンジ,ベースライン特徴抽出,および通常のComPaRE特徴に基づく分類器,auDeepツールキット,およびディープ特徴抽出について述べる。
論文 参考訳(メタデータ) (2023-04-28T14:42:55Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。