論文の概要: Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2501.06117v1
- Date: Fri, 10 Jan 2025 17:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:27.801349
- Title: Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding
- Title(参考訳): Fleurs-SLU: 音声言語理解のための多言語ベンチマーク
- Authors: Fabian David Schmidt, Ivan Vulić, Goran Glavaš, David Ifeoluwa Adelani,
- Abstract要約: より優れた多言語言語理解(SLU)は、多言語自動音声認識の堅牢性を大幅に強化することができる。
Fleurs-SLUは102言語での話題音声分類と92言語での複数選択質問応答を含むベンチマークである。
我々は、頑健な多言語ASR、効果的な音声からテキストへの翻訳、強い多言語SLUの間に強い相関関係を見出した。
- 参考スコア(独自算出の注目度): 7.973470389066757
- License:
- Abstract: While recent multilingual automatic speech recognition models claim to support thousands of languages, ASR for low-resource languages remains highly unreliable due to limited bimodal speech and text training data. Better multilingual spoken language understanding (SLU) can strengthen massively the robustness of multilingual ASR by levering language semantics to compensate for scarce training data, such as disambiguating utterances via context or exploiting semantic similarities across languages. Even more so, SLU is indispensable for inclusive speech technology in roughly half of all living languages that lack a formal writing system. However, the evaluation of multilingual SLU remains limited to shallower tasks such as intent classification or language identification. To address this, we present Fleurs-SLU, a multilingual SLU benchmark that encompasses topical speech classification in 102 languages and multiple-choice question answering through listening comprehension in 92 languages. We extensively evaluate both end-to-end speech classification models and cascaded systems that combine speech-to-text transcription with subsequent classification by large language models on Fleurs-SLU. Our results show that cascaded systems exhibit greater robustness in multilingual SLU tasks, though speech encoders can achieve competitive performance in topical speech classification when appropriately pre-trained. We further find a strong correlation between robust multilingual ASR, effective speech-to-text translation, and strong multilingual SLU, highlighting the mutual benefits between acoustic and semantic speech representations.
- Abstract(参考訳): 最近の多言語自動音声認識モデルは何千もの言語をサポートしていると主張しているが、低リソース言語向けのASRはバイモーダル音声とテキストの訓練データに制限があるため、信頼性が低いままである。
より優れた多言語言語理解(SLU)は、言語セマンティクスを引き上げ、文脈による発話の曖昧化や言語間のセマンティックな類似性を利用したりといった、訓練データの不足を補うことで、多言語ASRの堅牢性を大幅に強化することができる。
さらに、SLUは形式的な記述システムを持たないすべての言語において、包括的音声技術には不可欠である。
しかし、多言語SLUの評価は、意図分類や言語識別といったより浅いタスクに限られている。
これを解決するために,102言語における話題音声分類と92言語における聞き取り理解による複数選択質問応答を含む多言語SLUベンチマークFleurs-SLUを提案する。
Fleurs-SLUの大規模言語モデルを用いて、音声からテキストへの書き起こしとその後の分類を組み合わせ、エンドツーエンドの音声分類モデルとケースケードシステムの両方を広範囲に評価した。
本結果より, 音声エンコーダは, 多言語SLUタスクにおいてより堅牢性を示すが, 適切な事前訓練を行うと, 話題音声分類における競合性能が向上することが示唆された。
さらに、ロバストな多言語ASR、効果的な音声からテキストへの翻訳、そして強い多言語SLUの間に強い相関関係が見られ、音響的表現と意味的表現の相互利益を強調している。
関連論文リスト
- Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.660499609887886]
Speech-MASSIVEは多言語音声言語理解データセットである。
異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。
本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文 参考訳(メタデータ) (2024-08-07T16:55:28Z) - A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding [12.887586659035497]
自己指導型学習は、音声言語理解のための発話を効率的に表現するために広く利用されている。
テキストSSLモデルは言語に依存しないセマンティクスを符号化するために提案されている。
SAMU-XLSRフレームワークはこの意味情報を多言語音声表現の強化に用いた。
論文 参考訳(メタデータ) (2024-06-17T23:07:53Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual
Speech Representation [11.552745999302905]
本稿では,SAMU-XLSRを提案する。
我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。
論文 参考訳(メタデータ) (2022-05-17T08:58:48Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。