論文の概要: CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching
- arxiv url: http://arxiv.org/abs/2510.07881v1
- Date: Thu, 09 Oct 2025 07:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.931198
- Title: CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching
- Title(参考訳): CS3-Bench:マンダリン・イングリッシュ・コード・スイッチングのための音声合成LLMの評価と改善
- Authors: Heyang Liu, Yuhao Wang, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
- Abstract要約: 我々はCS3-Bench(Code-Switching Speech-to-Speech Benchmark)を提案する。
7つの主流モデルに関する実験は、知識集約的な質問応答の相対的なパフォーマンス低下を66%まで示している。
提案手法は, 知識の精度を25.14%から46.13%に改善し, オープンエンド理解率を64.5%から86.5%に改善し, 第二言語における発音誤りを大幅に低減する。
- 参考スコア(独自算出の注目度): 31.584937435966253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of multimodal large language models has accelerated the development of speech-to-speech interaction systems. While natural monolingual interaction has been achieved, we find existing models exhibit deficiencies in language alignment. In our proposed Code-Switching Speech-to-Speech Benchmark (CS3-Bench), experiments on 7 mainstream models demonstrate a relative performance drop of up to 66% in knowledge-intensive question answering and varying degrees of misunderstanding in open-ended conversations. Starting from a model with severe performance deterioration, we propose both data constructions and training approaches to improve the language alignment capabilities, specifically employing Chain of Recognition (CoR) to enhance understanding and Keyword Highlighting (KH) to guide generation. Our approach improves the knowledge accuracy from 25.14% to 46.13%, with open-ended understanding rate from 64.5% to 86.5%, and significantly reduces pronunciation errors in the secondary language. CS3-Bench is available at https://huggingface.co/datasets/VocalNet/CS3-Bench.
- Abstract(参考訳): マルチモーダルな大言語モデルの進歩は、音声音声対話システムの開発を加速させてきた。
自然なモノリンガル相互作用は達成されているが、既存のモデルは言語アライメントの欠陥を示す。
提案したCode-Switching Speech-to-Speech Benchmark (CS3-Bench)では、7つの主流モデルに対する実験により、知識集約的な質問応答の66%の相対的な性能低下と、オープンエンド会話における誤解の度合いが示されている。
本稿では,言語アライメント能力向上のためのデータ構築手法とトレーニング手法を提案し,特に認識の連鎖(CoR)を用いて理解の促進とキーワードハイライト(KH)を用いて生成を誘導する。
提案手法は, 知識の精度を25.14%から46.13%に改善し, オープンエンド理解率を64.5%から86.5%に改善し, 第二言語における発音誤りを大幅に低減する。
CS3-Benchはhttps://huggingface.co/datasets/VocalNet/CS3-Benchで入手できる。
関連論文リスト
- SAGE: Spliced-Audio Generated Data for Enhancing Foundational Models in Low-Resource Arabic-English Code-Switched Speech Recognition [4.210105570047471]
本稿では、方言アラビア語(DA)とアラビア英語(CS)音声における様々な音声SSLモデルの性能について検討する。
データ不足に対処するため,人工CS音声データを生成するための改良型オーディオスプライシング手法を導入した。
すでに微調整されたSSLモデルでは、アラビア語と英語のCSベンチマークでワードエラー率(WER)が7.8%向上する。
論文 参考訳(メタデータ) (2025-06-27T11:42:43Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。
我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文 参考訳(メタデータ) (2024-12-21T07:06:44Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。