論文の概要: Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect
- arxiv url: http://arxiv.org/abs/2407.04533v2
- Date: Tue, 9 Jul 2024 15:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:42:25.618312
- Title: Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect
- Title(参考訳): チュニジア方言における低音源SLUとASRのための音声エンコーダの性能解析
- Authors: Salima Mdhaffar, Haroun Elleuch, Fethi Bougares, Yannick Estève,
- Abstract要約: 自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
- 参考スコア(独自算出の注目度): 11.013934239276036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech encoders pretrained through self-supervised learning (SSL) have demonstrated remarkable performance in various downstream tasks, including Spoken Language Understanding (SLU) and Automatic Speech Recognition (ASR). For instance, fine-tuning SSL models for such tasks has shown significant potential, leading to improvements in the SOTA performance across challenging datasets. In contrast to existing research, this paper contributes by comparing the effectiveness of SSL approaches in the context of (i) the low-resource spoken Tunisian Arabic dialect and (ii) its combination with a low-resource SLU and ASR scenario, where only a few semantic annotations are available for fine-tuning. We conduct experiments using many SSL speech encoders on the TARIC-SLU dataset. We use speech encoders that were pre-trained on either monolingual or multilingual speech data. Some of them have also been refined without in-domain nor Tunisian data through multimodal supervised teacher-student paradigm. This study yields numerous significant findings that we are discussing in this paper.
- Abstract(参考訳): 自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、音声言語理解(SLU)や自動音声認識(ASR)など、様々な下流タスクにおいて顕著な性能を示した。
例えば、このようなタスクのための微調整されたSSLモデルは、大きな可能性を秘めており、挑戦的なデータセット間でSOTAパフォーマンスが改善されている。
既存の研究とは対照的に、本稿はSSLアプローチの有効性を文脈で比較することで貢献する。
(i)低資源のチュニジア・アラビア方言、および
(II)低リソースのSLUとASRのシナリオを組み合わせたもので、微調整にはいくつかのセマンティックアノテーションしか利用できない。
我々は、TARIC-SLUデータセット上で、多くのSSL音声エンコーダを用いて実験を行う。
単言語か多言語かのいずれかの音声データに基づいて事前訓練された音声エンコーダを用いる。
そのうちのいくつかは、ドメイン内やチュニジアのデータをマルチモーダル教師/学生のパラダイムに含めずに洗練されている。
本研究は,本論文で論じている多くの重要な知見をもたらす。
関連論文リスト
- Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - kNN Retrieval for Simple and Effective Zero-Shot Multi-speaker Text-to-Speech [18.701864254184308]
kNN-TTSは、ゼロショットマルチ話者テキスト音声合成のためのシンプルで効果的なフレームワークである。
我々のモデルは、1つの話者から書き起こされた音声に基づいて訓練され、最先端のモデルに匹敵する性能を達成する。
また、微細な音声モーフィングを可能にするパラメータも導入する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。