論文の概要: Context-Aware Whisper for Arabic ASR Under Linguistic Varieties
- arxiv url: http://arxiv.org/abs/2511.18774v1
- Date: Mon, 24 Nov 2025 05:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.027556
- Title: Context-Aware Whisper for Arabic ASR Under Linguistic Varieties
- Title(参考訳): 言語変化下におけるアラビア語ASRの文脈対応ウィスパー
- Authors: Bashar Talafha, Amin Abu Alhassan, Muhammad Abdul-Mageed,
- Abstract要約: そこで我々は,OpenAIのWhisperをアラビア音声認識に適用するための文脈認識戦略を提案する。
本稿では, アクセシブリオーダー, 話者対応プレフィックス合成, モーダリティ特化検索などの手法を紹介する。
我々のアプローチは、WERを現代標準アラビア語で最大22.3%、方言言語で最大9.2%削減する。
- 参考スコア(独自算出の注目度): 27.039946482465268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource ASR remains a challenging problem, especially for languages like Arabic that exhibit wide dialectal variation and limited labeled data. We propose context-aware prompting strategies to adapt OpenAI's Whisper for Arabic speech recognition without retraining. Our methods include decoder prompting with first-pass transcriptions or retrieved utterances, and encoder prefixing using speech synthesized in the target speaker's voice. We introduce techniques such as prompt reordering, speaker-aware prefix synthesis, and modality-specific retrieval (lexical, semantic, acoustic) to improve transcription in real-world, zero-shot settings. Evaluated on nine Arabic linguistic conditions, our approach reduces WER by up to 22.3% on Modern Standard Arabic and 9.2% on dialectal speech, significantly mitigating hallucinations and speaker mismatch.
- Abstract(参考訳): 低リソースのASRは依然として困難な問題であり、特に方言のバリエーションとラベル付きデータに制限があるアラビア語のような言語では問題となる。
そこで我々は,OpenAIのWhisperをアラビア音声認識に適用するための文脈認識戦略を提案する。
提案手法は、第1パスの書き起こしや検索された発話を指示するデコーダと、ターゲット話者の声に合成された音声を用いたエンコーダプレフィックスを含む。
実世界のゼロショット設定における文字の書き起こしを改善するために, アクシデント・リオーダー, 話者対応プレフィックス合成, モーダリティ特化検索(語彙, 意味, 音響)などの手法を導入する。
アラビア語の9つの条件に基づいて評価し、WERを現代標準アラビア語で最大22.3%、方言の言語で最大9.2%減らし、幻覚と話者のミスマッチを著しく緩和する。
関連論文リスト
- Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition [0.0]
本研究では、アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。
このフレームワークは、UniSpeech由来の音響埋め込みとWhisper転写から抽出されたBERTベースのテキスト埋め込みを統合する。
この研究は、インテリジェントで話者に依存しないマルチモーダル・コンピュータ支援言語学習(CALL)システムの開発に寄与する。
論文 参考訳(メタデータ) (2025-11-21T18:25:46Z) - Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking [1.108292291257035]
本稿ではアクセントと方言の分類を認識パイプラインに統合するアクセント不変のASRフレームワークを提案する。
我々のアプローチは、アクセント固有の手がかりを捉え、その予測に最も影響を及ぼす領域をマスキングするためにスペクトログラムベースの分類器を訓練し、データ拡張にマスク付きスペクトログラムを使用することである。
ペルシャ語では、複数の地域アクセントにまたがる新たに収集されたデータセットを導入し、ペルシャ語ASRにおけるアクセント変動のシステマティックなベンチマークを確立した。
論文 参考訳(メタデータ) (2025-10-10T16:41:53Z) - Towards stable AI systems for Evaluating Arabic Pronunciations [0.7999703756441757]
この音素レベルの課題は、単独の文字には共調的手がかりがなく、語彙的文脈がなく、数百ミリ秒しか持たないため、困難であることを示す。
本研究は、アラビア文字の多様で分類されたコーパスを導入し、最先端のwav2vec 2.0モデルが35%の精度しか達成していないことを示す。
論文 参考訳(メタデータ) (2025-08-27T05:49:15Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。