Fugu-MT 論文翻訳(概要): N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition

論文の概要: N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition

arxiv url: http://arxiv.org/abs/2306.02902v1
Date: Mon, 5 Jun 2023 14:09:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 14:32:27.554274
Title: N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
Title（参考訳）: 逆アラビア音声認識におけるWhisperのNショットベンチマーク
Authors: Bashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed
Abstract要約: ウィスパーがアラビア語のような言語で評価されたとしても、様々な条件下でどのように運べるかは明らかではない。本評価は, アラビア語音声データの大部分を網羅し, n-shot finetuning で行う。また、Whisper の全く新しい条件下での堅牢性についても検討する。
参考スコア（独自算出の注目度）: 8.731646409966737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Whisper, the recently developed multilingual weakly supervised model, is reported to perform well on multiple speech recognition benchmarks in both monolingual and multilingual settings. However, it is not clear how Whisper would fare under diverse conditions even on languages it was evaluated on such as Arabic. In this work, we address this gap by comprehensively evaluating Whisper on several varieties of Arabic speech for the ASR task. Our evaluation covers most publicly available Arabic speech data and is performed under n-shot (zero-, few-, and full) finetuning. We also investigate the robustness of Whisper under completely novel conditions, such as in dialect-accented standard Arabic and in unseen dialects for which we develop evaluation data. Our experiments show that although Whisper zero-shot outperforms fully finetuned XLS-R models on all datasets, its performance deteriorates significantly in the zero-shot setting for five unseen dialects (i.e., Algeria, Jordan, Palestine, UAE, and Yemen).
Abstract（参考訳）: 最近開発された多言語弱い教師付きモデルであるwhisperは、単言語と多言語の両方で複数の音声認識ベンチマークでうまく機能していると報告されている。しかし、アラビア語などの言語で評価された場合でも、様々な条件下でどのようにささやくかは明らかではない。本研究では、このギャップに対処するため、ASRタスクのための様々なアラビア語音声に対して、Whisperを包括的に評価する。本評価は, アラビア語音声データの大部分を網羅し, n-shot (0-, few-, full) ファインタニングで行う。また, 方言アクセント標準アラビア語や未熟方言など, 全く新しい条件下でのささやき声の頑健性についても検討し, 評価データを開発した。実験の結果、Whisperのゼロショットは全データセットでXLS-Rモデルよりも優れていたが、その性能は5つの未知の方言(アルジェリア、ヨルダン、パレスチナ、アラブ首長国連邦、イエメン)のゼロショット設定で著しく低下した。

関連論文リスト

Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition [0.0]
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。スーダン方言の最初のベンチマークを確立している。
論文参考訳（メタデータ） (2026-01-11T08:28:31Z)
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。 MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文参考訳（メタデータ） (2025-10-31T15:17:06Z)
DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか? 6つの共通英語方言にまたがる大規模ベンチマークを構築した。マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文参考訳（メタデータ） (2025-10-16T17:56:55Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Dialectal Coverage And Generalization in Arabic Speech Recognition [0.6757476692230007]
既存のASRシステムは、多種多様な話し言葉にまたがる範囲と一般化において不足している。アラビア語圏の様々な地域では、英語やフランス語とのコードスイッチも一般的である。音声アラビアの複数の変種を効果的に認識するために最適化された一連のASRモデルを提案する。
論文参考訳（メタデータ） (2024-11-07T22:23:30Z)
Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。複数の実験で10%以上の絶対WER削減を達成した。
論文参考訳（メタデータ） (2024-08-10T13:39:13Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。 AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文参考訳（メタデータ） (2023-10-20T18:07:39Z)
VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System [16.420831300734697]
VoxArabicaは、アラビア語の方言識別(DID)と自動音声認識(ASR)のためのシステムである。我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。 MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど、さまざまな機能を備えています。
論文参考訳（メタデータ） (2023-10-17T08:33:02Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Offensive Language Detection in Under-resourced Algerian Dialectal Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文参考訳（メタデータ） (2022-03-18T15:42:21Z)
Towards One Model to Rule All: Multilingual Strategy for Dialectal Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文参考訳（メタデータ） (2021-05-31T08:20:38Z)
How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文参考訳（メタデータ） (2020-10-22T23:07:24Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。