論文の概要: MUSCAT: MUltilingual, SCientific ConversATion Benchmark
- arxiv url: http://arxiv.org/abs/2604.15929v1
- Date: Fri, 17 Apr 2026 10:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.87834
- Title: MUSCAT: MUltilingual, SCientific ConversATion Benchmark
- Title(参考訳): MUSCAT: MUltilingual, SCientific Conversatiion Benchmark
- Authors: Supriti Sinhamahapatra, Thai-Binh Nguyen, Yiğit Oğuz, Enes Ugan, Jan Niehues, Alexander Waibel,
- Abstract要約: 多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 60.87925076316812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of multilingual speech technology is to facilitate seamless communication between individuals speaking different languages, creating the experience as though everyone were a multilingual speaker. To create this experience, speech technology needs to address several challenges: Handling mixed multilingual input, specific vocabulary, and code-switching. However, there is currently no dataset benchmarking this situation. We propose a new benchmark to evaluate current Automatic Speech Recognition (ASR) systems, whether they are able to handle these challenges. The benchmark consists of bilingual discussions on scientific papers between multiple speakers, each conversing in a different language. We provide a standard evaluation framework, beyond Word Error Rate (WER) enabling consistent comparison of ASR performance across languages. Experimental results demonstrate that the proposed dataset is still an open challenge for state-of-the-art ASR systems. The dataset is available in https://huggingface.co/datasets/goodpiku/muscat-eval \\ \newline \Keywords{multilingual, speech recognition, audio segmentation, speaker diarization}
- Abstract(参考訳): 多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にし、全員が多言語話者であるかのように体験を作ることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
しかし、現時点ではこの状況をベンチマークするデータセットは存在しない。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
このベンチマークは、複数の話者間の科学論文に関するバイリンガルな議論から成り、それぞれが異なる言語で会話している。
我々は,単語誤り率(WER)を超える標準評価フレームワークを提供し,言語間のASR性能を一貫した比較を可能にする。
実験の結果,提案したデータセットは依然として最先端のASRシステムにとってオープンな課題であることが示された。
データセットはhttps://huggingface.co/datasets/goodpiku/muscat-eval \\ \newline \Keywords{multilingual, speech recognition, audio segmentation, speaker diarization} で利用可能である。
関連論文リスト
- SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。
この言語現象は、自動音声認識(ASR)システムに課題をもたらす。
textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文 参考訳(メタデータ) (2025-05-30T05:54:46Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval [0.9023847175654603]
CLASP(Contrastive Language-Speech Pretraining)は、音声テキスト情報検索に適した多言語表現である。
トレーニングでは,フィクションから宗教まで15の分野を対象とする音声テキストデータセットを新たに導入した。
複数の言語で評価した結果、CLASPはHITS@1、MRR、平均Rメトリクスで新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2024-12-17T16:38:10Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。