論文の概要: Abjad AI at NADI 2025: CATT-Whisper: Multimodal Diacritic Restoration Using Text and Speech Representations
- arxiv url: http://arxiv.org/abs/2510.24247v1
- Date: Tue, 28 Oct 2025 09:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.006228
- Title: Abjad AI at NADI 2025: CATT-Whisper: Multimodal Diacritic Restoration Using Text and Speech Representations
- Title(参考訳): Abjad AI at NADI 2025: CATT-Whisper: Multimodal Diacritic Restoration using Text and Speech Representations (英語)
- Authors: Ahmad Ghannam, Naif Alharthi, Faris Alasmary, Kholood Al Tabash, Shouq Sadah, Lahouari Ghouti,
- Abstract要約: アラビア語の方言文に対する多モーダルアプローチを用いたダイアクリティカル・リカバリ(DR)課題に取り組む。
本稿では,CATT という名前の事前学習モデルから抽出したエンコーダを用いて,テキストのモダリティを表すモデルを提案する。
実験の結果,提案手法は, 単語誤り率0.25, 文字誤り率0.9を実現していることがわかった。
- 参考スコア(独自算出の注目度): 1.1391158217994781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we tackle the Diacritic Restoration (DR) task for Arabic dialectal sentences using a multimodal approach that combines both textual and speech information. We propose a model that represents the text modality using an encoder extracted from our own pre-trained model named CATT. The speech component is handled by the encoder module of the OpenAI Whisper base model. Our solution is designed following two integration strategies. The former consists of fusing the speech tokens with the input at an early stage, where the 1500 frames of the audio segment are averaged over 10 consecutive frames, resulting in 150 speech tokens. To ensure embedding compatibility, these averaged tokens are processed through a linear projection layer prior to merging them with the text tokens. Contextual encoding is guaranteed by the CATT encoder module. The latter strategy relies on cross-attention, where text and speech embeddings are fused. The cross-attention output is then fed to the CATT classification head for token-level diacritic prediction. To further improve model robustness, we randomly deactivate the speech input during training, allowing the model to perform well with or without speech. Our experiments show that the proposed approach achieves a word error rate (WER) of 0.25 and a character error rate (CER) of 0.9 on the development set. On the test set, our model achieved WER and CER scores of 0.55 and 0.13, respectively.
- Abstract(参考訳): 本研究では,テキスト情報と音声情報を組み合わせた多モーダルアプローチを用いて,アラビア語の方言文に対するダイアクリティカル・リカバリ(DR)課題に取り組む。
本稿では,CATT という名前の事前学習モデルから抽出したエンコーダを用いて,テキストのモダリティを表すモデルを提案する。
音声コンポーネントは、OpenAI Whisperベースモデルのエンコーダモジュールによって処理される。
私たちのソリューションは2つの統合戦略に従って設計されています。
前者は、音声セグメントの1500フレームが平均10フレーム以上あり、150の音声トークンが生成される早期に、音声トークンと入力を融合して構成する。
埋め込み互換性を確保するため、これらの平均トークンはテキストトークンとマージする前に線形投影層を通して処理される。
コンテキストエンコーディングはCATTエンコーダモジュールによって保証される。
後者の戦略は、テキストと音声の埋め込みを融合させるクロスアテンションに依存している。
次に、クロスアテンション出力をCATT分類ヘッドに供給し、トークンレベルのダイアクリティカル予測を行う。
モデルロバスト性をさらに向上するため、トレーニング中の音声入力をランダムに非活性化し、モデルが音声の有無にかかわらず良好に動作できるようにする。
実験の結果,提案手法は, 単語誤り率0.25, 文字誤り率0.9を実現していることがわかった。
テストセットでは,WERとCERのスコアがそれぞれ0.55と0.13であった。
関連論文リスト
- TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文 参考訳(メタデータ) (2025-08-22T20:45:03Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。