論文の概要: PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects
- arxiv url: http://arxiv.org/abs/2606.01016v1
- Date: Sun, 31 May 2026 05:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.07512
- Title: PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects
- Title(参考訳): PolySpeech-100: 100以上の言語と方言の音声理解のための大規模ベンチマーク
- Authors: Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He,
- Abstract要約: PolySpeech-100は110の言語変種にわたるネイティブレベルの音声理解を評価するために設計された大規模ベンチマークである。
我々は、指示駆動合成音声によるゴールドスタンダードな人間の録音を増強する、新しいハイブリッド構築パイプラインを採用している。
- 参考スコア(独自算出の注目度): 29.32197370490759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While End-to-End (E2E) Speech-Large Language Models (Speech-LLMs) are rapidly evolving, their evaluation methodologies remain limited to the era of simple transcription. Existing benchmarks suffer from three critical limitations: a pronounced bias towards high-resource languages, a focus on low-level recognition (ASR) rather than semantic reasoning, and a neglect of regional dialects. To bridge this gap, we introduce PolySpeech-100, a massive-scale benchmark designed to assess `native-level' speech comprehension across 110 linguistic variants. We employ a novel hybrid construction pipeline that augments gold-standard human recordings with instruction-driven synthetic speech, allowing us to cover 19 distinct Chinese dialects and over 80 low-resource languages. Extensive evaluation of 22 state-of-the-art models (including Gemini-3, GPT-Audio, and Qwen2.5-Omni) yields pivotal insights. First, we demonstrate that open-source E2E models outperform Cascade (ASR+LLM) systems on heavy dialects, proving that direct audio processing preserves critical paralinguistic cues and prosodic features (e.g., intonation, stress) that are often lost in standard transcription. Second, we reveal a significant performance gap: while commercial models maintain robustness, open-source models suffer catastrophic degradation on low-resource languages. Finally, counter-intuitively, we observe that under standard zero-shot settings, Chain-of-Thought prompting frequently degrades speech understanding performance for most evaluated models, revealing a potential modality alignment gap in current architectures. PolySpeech-100 establishes a rigorous standard for the next generation of inclusive, omni-capable Speech-LLMs. The data, demo, and code are publicly available at https://github.com/YoungSeng/PolySpeech-100.
- Abstract(参考訳): E2E(End-to-End)音声言語モデル(Speech-LLMs)は急速に進化しているが、その評価手法は単純な転写の時代に限られている。
既存のベンチマークには、3つの重要な制限がある: ハイリソース言語に対する顕著な偏見、意味論的推論よりも低レベル認識(ASR)に焦点を当てること、地域方言を無視すること。
このギャップを埋めるために、110の言語変種にわたる'ネイティブレベル'音声理解を評価するために設計された大規模ベンチマークであるPolySpeech-100を導入する。
我々は、命令駆動合成音声でゴールドスタンダードの人間の録音を増強し、19の異なる中国語方言と80以上の低リソース言語をカバーできる新しいハイブリッド構築パイプラインを採用している。
Gemini-3, GPT-Audio, Qwen2.5-Omniを含む22種類の最先端モデルの大規模評価は、重要な洞察を与える。
まず、オープンソースのE2Eモデルは、重い方言上でカスケード(ASR+LLM)システムより優れており、直接オーディオ処理は、標準転写においてしばしば失われる重要なパラ言語的手がかりと韻律的特徴(例えば、イントネーション、ストレス)を保っていることを証明している。
商用モデルは堅牢性を維持しながら、オープンソースモデルは低リソース言語で破滅的な劣化を被る。
最後に,標準のゼロショット設定下では,Chain-of-Thoughtは,ほとんどの評価されたモデルに対して,発話理解性能を劣化させ,現在のアーキテクチャにおける潜在的なモダリティアライメントギャップを明らかにする。
PolySpeech-100は、次世代の包括的でオールニ対応の音声-LLMの厳格な規格を確立している。
データ、デモ、コードはhttps://github.com/YoungSeng/PolySpeech-100.comで公開されている。
関連論文リスト
- PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - RosettaSpeech: Zero-Shot Speech-to-Speech Translation from Monolingual Data [30.27234062544891]
本稿では,ゼロショット音声音声翻訳(S2ST)のための新規かつ簡易なフレームワークであるRosettaSpeechを紹介する。
本手法はテキストベースのNMTモデルに固有の言語知識を活用するが,パラレル音声対の必要性を極端に排除する。
我々のモデルは、トレーニング中にテキストを中間ブリッジとして使用するが、推論時に直接エンドツーエンドの音声合成モデルとして機能する。
論文 参考訳(メタデータ) (2025-11-26T02:02:20Z) - VocalBench-zh: Decomposing and Benchmarking the Speech Conversational Abilities in Mandarin Context [32.35011898483814]
本稿では,マンダリン文脈に適応した能力レベル分割評価スイートであるVocalBench-zhを提案する。
14の主流モデルに対する評価実験は、現在のルートに対する共通の課題を明らかにしている。
論文 参考訳(メタデータ) (2025-11-11T13:30:41Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。