論文の概要: Face-voice Association in Multilingual Environments (FAME) 2026 Challenge Evaluation Plan
- arxiv url: http://arxiv.org/abs/2508.04592v1
- Date: Wed, 06 Aug 2025 16:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.818473
- Title: Face-voice Association in Multilingual Environments (FAME) 2026 Challenge Evaluation Plan
- Title(参考訳): マルチリンガル環境(FAME)2026 課題評価計画における顔声アソシエーション
- Authors: Marta Moscati, Ahmed Abdullah, Muhammad Saad Saeed, Shah Nawaz, Rohan Kumar Das, Muhammad Zaigham Zaheer, Junaid Mir, Muhammad Haroon Yousaf, Khalid Malik, Markus Schedl,
- Abstract要約: フェース・ボイス・アソシエーション・イン・マルチリンガル・アソシエーション(FAME) 2026 Challengeは、マルチリンガル・シナリオの下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースラインモデル、タスクの詳細について説明する。
- 参考スコア(独自算出の注目度): 21.995270839155882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advancements of technology have led to the use of multimodal systems in various real-world applications. Among them, audio-visual systems are among the most widely used multimodal systems. In the recent years, associating face and voice of a person has gained attention due to the presence of unique correlation between them. The Face-voice Association in Multilingual Environments (FAME) 2026 Challenge focuses on exploring face-voice association under the unique condition of a multilingual scenario. This condition is inspired from the fact that half of the world's population is bilingual and most often people communicate under multilingual scenarios. The challenge uses a dataset named Multilingual Audio-Visual (MAV-Celeb) for exploring face-voice association in multilingual environments. This report provides the details of the challenge, dataset, baseline models, and task details for the FAME Challenge.
- Abstract(参考訳): 技術の進歩により、様々な現実世界のアプリケーションにマルチモーダルシステムが使われるようになった。
中でも、オーディオ視覚システムは最も広く使われているマルチモーダルシステムの一つである。
近年,人の顔と声の関連付けが注目されている。
フェースボイス・アソシエーション・イン・マルチ言語環境(FAME)2026チャレンジは、多言語シナリオのユニークな条件下でのフェースボイス・アソシエーションの探求に焦点を当てている。
この状態は、世界の人口の半分がバイリンガルであり、ほとんどの人は多言語シナリオの下でコミュニケーションしているという事実から着想を得ている。
この課題は、マルチリンガル環境における顔声関連を探索するために、Multilingual Audio-Visual (MAV-Celeb) というデータセットを使用する。
本報告では、FAME Challengeの課題、データセット、ベースラインモデル、タスクの詳細について説明する。
関連論文リスト
- SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。
この言語現象は、自動音声認識(ASR)システムに課題をもたらす。
textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文 参考訳(メタデータ) (2025-05-30T05:54:46Z) - SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval [29.85035370846946]
オンラインの偽情報の普及は世界的な課題であり、機械学習は潜在的な解決策として広く研究されてきた。
このギャップに対処するため,SemEval 2025において多言語クレーム検索の共有タスクを行った。
両サブトラックにまたがる最良性能システムと、最も一般的かつ最も効果的なアプローチについて報告する。
論文 参考訳(メタデータ) (2025-05-15T23:04:46Z) - Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan [29.23176868272216]
フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。
論文 参考訳(メタデータ) (2024-04-14T19:51:32Z) - Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and
LAnguage in Conversational Environments [28.618333018398122]
複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話は言語が混在することが多い。
既存の音声技術は、音声データが複数の言語や話者との多様性に富んでいるような会話から情報を抽出するのに非効率である可能性がある。
DISPLACEチャレンジは、この挑戦的な状況下で話者と言語ダイアリゼーション技術の評価とベンチマークを行うためのオープンコールを構成する。
論文 参考訳(メタデータ) (2023-11-21T12:23:58Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond [87.4049283495551]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective [29.314358875442778]
本研究の目的は,「対面音声アソシエーション言語は独立したのか?」と「話者は話し言葉を認識しているのか?」という,密接に関連する2つの問いに答えることである。
これに答えるために、オンラインにアップロードされたさまざまなビデオから3ドル(約3,300円)の言語アノテーションを抽出した154ドル(約1,300円)の音声クリップを含むマルチ言語音声画像データセットを収集した。
論文 参考訳(メタデータ) (2020-04-28T19:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。