論文の概要: Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2501.06117v3
- Date: Wed, 13 Aug 2025 20:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 15:52:16.762009
- Title: Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding
- Title(参考訳): Fleurs-SLU: 音声言語理解のための多言語ベンチマーク
- Authors: Fabian David Schmidt, Ivan Vulić, Goran Glavaš, David Ifeoluwa Adelani,
- Abstract要約: 形式的な書記体系を欠いているすべての生きた言語の半数には、音声言語理解が不可欠である。
Fleurs-SLUベンチマークは102言語における話題発声分類のための692時間の音声にまたがる。
我々は、Fleurs-SLU上でのエンドツーエンド音声分類モデル、音声からテキストへの書き起こしとその後のLLMに基づく分類とを組み合わせたケースドシステム、マルチモーダル音声-LLMを評価する。
- 参考スコア(独自算出の注目度): 7.973470389066757
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spoken language understanding (SLU) is indispensable for half of all living languages that lack a formal writing system. Unlike for high-resource languages, for these languages, we cannot offload semantic understanding of speech to the cascade of automatic speech recognition (ASR) and text-based large language models (LLMs). Even if low-resource languages possess a writing system, ASR for these languages remains unreliable due to limited bimodal speech and text training data. Nonetheless, the evaluation of multilingual SLU is limited to shallow tasks such as intent classification or language identification. This is why we present Fleurs-SLU, a multilingual SLU benchmark that encompasses (i) 692 hours of speech for topical utterance classification in 102 languages and (ii) multiple-choice question answering via listening comprehension spanning 944 hours of speech across 92 languages. We extensively evaluate end-to-end speech classification models, cascaded systems that combine speech-to-text transcription with subsequent LLM-based classification, and multimodal speech-LLMs on Fleurs-SLU. Our results show that cascaded systems are more robust in multilingual SLU, though well-pretrained speech encoders can perform competitively in topical speech classification. Closed-source speech-LLMs match or surpass the performance of cascaded systems. We observe a strong correlation between robust multilingual ASR, effective speech-to-text translation, and strong multilingual SLU, indicating mutual benefits between acoustic and semantic speech representations.
- Abstract(参考訳): 音声言語理解(SLU: Spoken Language Understanding)は、形式的な記述システムを持たないすべての言語において必須である。
ハイソース言語とは異なり、これらの言語では、自動音声認識(ASR)とテキストベース大規模言語モデル(LLM)のカスケードに、音声の意味的理解をオフロードすることはできない。
低リソース言語が書き込みシステムを持っているとしても、これらの言語に対するASRはバイモーダル音声やテキストの訓練データに制限があるため信頼性が低いままである。
それでも、多言語SLUの評価は、意図分類や言語識別といった浅いタスクに限定されている。
これが、多言語SLUベンチマークであるFleurs-SLUを提示する理由である。
(i)102言語における話題音声分類のための692時間音声
(i)92言語944時間にまたがる聞き取り理解による複数選択質問応答について検討した。
Fleurs-SLUにおける音声とテキストの書き起こしとその後のLLMに基づく分類とマルチモーダル音声とLLMを併用した、エンドツーエンドの音声分類モデル、ケースドシステムについて広範囲に評価した。
その結果,多言語SLUではカスケード方式の方が頑健であることがわかった。
クローズドソース音声-LLMは、カスケードシステムの性能にマッチするか、上回る。
我々は,頑健な多言語ASR,効果的な音声-テキスト翻訳,強い多言語SLUの相関関係を観察し,音響的表現と意味的表現の相互利益を示す。
関連論文リスト
- Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.660499609887886]
Speech-MASSIVEは多言語音声言語理解データセットである。
異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。
本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文 参考訳(メタデータ) (2024-08-07T16:55:28Z) - A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding [12.887586659035497]
自己指導型学習は、音声言語理解のための発話を効率的に表現するために広く利用されている。
テキストSSLモデルは言語に依存しないセマンティクスを符号化するために提案されている。
SAMU-XLSRフレームワークはこの意味情報を多言語音声表現の強化に用いた。
論文 参考訳(メタデータ) (2024-06-17T23:07:53Z) - Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech [3.812148920168377]
本稿では,話者ダイアリゼーションと言語識別からなるケースケードシステムを提案する。
結果から,提案システムは低言語分類と言語ダイアリゼーション誤り率をしばしば達成することがわかった。
同時に、モノリンガル音声における音声認識に悪影響を及ぼさない。
論文 参考訳(メタデータ) (2024-06-13T16:27:56Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。