論文の概要: POLY-SIM: Polyglot Speaker Identification with Missing Modality Grand Challenge 2026 Evaluation Plan
- arxiv url: http://arxiv.org/abs/2603.24569v1
- Date: Wed, 25 Mar 2026 17:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.418082
- Title: POLY-SIM: Polyglot Speaker Identification with Missing Modality Grand Challenge 2026 Evaluation Plan
- Title(参考訳): Polyglot Speaker Identification with Missing Modality Grand Challenge 2026 Evaluation Plan
- Authors: Marta Moscati, Muhammad Saad Saeed, Marina Zanoni, Mubashir Noman, Rohan Kumar Das, Monorama Swain, Yufang Hou, Elisabeth Andre, Khalid Mahmood Malik, Markus Schedl, Shah Nawaz,
- Abstract要約: Poly-SIM Grand Challenge 2026は、欠落したモダリティと言語間の条件下でのマルチモーダル話者識別の研究を進めることを目的としている。
特に、グランドチャレンジは、異なる言語間で強いパフォーマンスを維持しながら、不完全なマルチモーダル入力を効果的に活用できる方法の開発を奨励する。
- 参考スコア(独自算出の注目度): 27.26463956543086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal speaker identification systems typically assume the availability of complete and homogeneous audio-visual modalities during both training and testing. However, in real-world applications, such assumptions often do not hold. Visual information may be missing due to occlusions, camera failures, or privacy constraints, while multilingual speakers introduce additional complexity due to linguistic variability across languages. These challenges significantly affect the robustness and generalization of multimodal speaker identification systems. The POLY-SIM Grand Challenge 2026 aims to advance research in multimodal speaker identification under missing-modality and cross-lingual conditions. Specifically, the Grand Challenge encourages the development of robust methods that can effectively leverage incomplete multimodal inputs while maintaining strong performance across different languages. This report presents the design and organization of the POLY-SIM Grand Challenge 2026, including the dataset, task formulation, evaluation protocol, and baseline model. By providing a standardized benchmark and evaluation framework, the challenge aims to foster progress toward more robust and practical multimodal speaker identification systems.
- Abstract(参考訳): マルチモーダル話者識別システムは、トレーニングとテストの両方において、完全かつ均質なオーディオ視覚モダリティが利用可能であると仮定する。
しかし、現実世界の応用においては、そのような仮定はしばしば成り立たない。
視覚情報は、隠蔽、カメラの故障、プライバシーの制約によって欠落する可能性があるが、多言語話者は言語間の言語的多様性のために、さらなる複雑さをもたらす。
これらの課題はマルチモーダル話者識別システムの堅牢性と一般化に大きな影響を及ぼす。
POLY-SIM Grand Challenge 2026は、欠落したモダリティと言語間条件下でのマルチモーダル話者識別の研究を進めることを目的としている。
特に、グランドチャレンジは、異なる言語間で強いパフォーマンスを維持しながら、不完全なマルチモーダル入力を効果的に活用できるロバストなメソッドの開発を奨励する。
本報告では,POLY-SIMグランドチャレンジ2026の設計と組織について,データセット,タスク定式化,評価プロトコル,ベースラインモデルについて述べる。
標準化されたベンチマークと評価フレームワークを提供することで、より堅牢で実用的なマルチモーダル話者識別システムへの進歩を促進することを目指している。
関連論文リスト
- Face-voice Association in Multilingual Environments (FAME) 2026 Challenge Evaluation Plan [24.480174322626155]
フェース・ボイス・アソシエーション・イン・マルチリンガル・アソシエーション(FAME) 2026 Challengeは、マルチリンガル・シナリオの下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースラインモデル、タスクの詳細について説明する。
論文 参考訳(メタデータ) (2025-08-06T16:09:47Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から, モデルが良好に機能することのないことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan [29.23176868272216]
フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。
論文 参考訳(メタデータ) (2024-04-14T19:51:32Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond [87.4049283495551]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。