論文の概要: VocalBench-zh: Decomposing and Benchmarking the Speech Conversational Abilities in Mandarin Context
- arxiv url: http://arxiv.org/abs/2511.08230v2
- Date: Mon, 17 Nov 2025 04:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.197882
- Title: VocalBench-zh: Decomposing and Benchmarking the Speech Conversational Abilities in Mandarin Context
- Title(参考訳): VocalBench-zh:マンダリン文脈における会話能力の分解とベンチマーク
- Authors: Heyang Liu, Ziyang Cheng, Yuhao Wang, Hongcheng Liu, Yiqi Li, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
- Abstract要約: 本稿では,マンダリン文脈に適応した能力レベル分割評価スイートであるVocalBench-zhを提案する。
14の主流モデルに対する評価実験は、現在のルートに対する共通の課題を明らかにしている。
- 参考スコア(独自算出の注目度): 32.35011898483814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of multi-modal large language models (LLMs) leads to intelligent approaches capable of speech interactions. As one of the most widely spoken languages globally, Mandarin is supported by most models to enhance their applicability and reach. However, the scarcity of comprehensive speech-to-speech (S2S) benchmarks in Mandarin contexts impedes systematic evaluation for developers and hinders fair model comparison for users. In this work, we propose VocalBench-zh, an ability-level divided evaluation suite adapted to Mandarin context consisting of 10 well-crafted subsets and over 10K high-quality instances, covering 12 user-oriented characters. The evaluation experiment on 14 mainstream models reveals the common challenges for current routes, and highlights the need for new insights into next-generation speech interactive systems. The evaluation codes and datasets will be available at https://github.com/SJTU-OmniAgent/VocalBench-zh.
- Abstract(参考訳): マルチモーダルな大言語モデル(LLM)の開発は、音声対話が可能なインテリジェントなアプローチへと繋がる。
世界中で最も広く話されている言語の一つとして、マンダリンは適用性と到達性を高めるため、ほとんどのモデルでサポートされている。
しかし、マンダリン文脈における包括的音声合成(S2S)ベンチマークの欠如は、開発者の体系的な評価を妨げ、ユーザに対する公正なモデル比較を妨げる。
本研究では,10個の熟練したサブセットと10K以上の高品質なインスタンスで構成され,12個のユーザ指向文字を含む,マンダリン文脈に適応した能力レベル分割評価スイートであるVocalBench-zhを提案する。
14の主流モデルに対する評価実験は、現在のルートに対する共通の課題を明らかにし、次世代音声対話システムに対する新たな洞察の必要性を強調している。
評価コードとデータセットはhttps://github.com/SJTU-OmniAgent/VocalBench-zhで入手できる。
関連論文リスト
- VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents [53.33704332801441]
大規模音声言語モデル (LALM) は多モード対話システムを大幅に強化した。
既存のベンチマークは主に英語中心であり、合成音声に依存しており、包括的で差別的な評価を欠いている。
我々はVoice Chat Bot Bench(VCB Bench)を紹介します。
論文 参考訳(メタデータ) (2025-10-13T07:45:52Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR [23.285609467633865]
本稿では、多言語連続会話自動音声認識(ASR)を改善するために、言語固有の双方向コンテキストを音声大言語モデル(SLLM)に統合する。
トレーニング中の文字レベルのコンテキストマスキング戦略を提案する。これにより、コンテキストの一部がランダムに除去され、堅牢性が向上し、推論中に発生する可能性のある欠陥のある文字のエミュレートが向上する。
論文 参考訳(メタデータ) (2025-06-16T12:03:23Z) - In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties [24.74769794165231]
本稿では,Phi-4 Multimodal におけるコンテキスト内学習(ICL)を実現するスケーラブルなフレームワークを提案する。
単語の誤り率を相対的に19.7%減少させるのは、12の例に過ぎない。
全体として、我々の新しいICL適応方式は、人間の聴取者と同様の性能を示す。
論文 参考訳(メタデータ) (2025-05-20T20:20:37Z) - Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。
本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。
従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文 参考訳(メタデータ) (2024-12-16T15:45:10Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。