論文の概要: CTC-DID: CTC-Based Arabic dialect identification for streaming applications
- arxiv url: http://arxiv.org/abs/2601.12199v1
- Date: Sun, 18 Jan 2026 00:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.503471
- Title: CTC-DID: CTC-Based Arabic dialect identification for streaming applications
- Title(参考訳): CTC-DID:CTCに基づくストリーミングアプリケーションのためのアラビア方言識別
- Authors: Muhammad Umar Farooq, Oscar Saz,
- Abstract要約: CTC-DIDは、方言識別タスクを限定語彙ASRシステムとしてフレーム化する。
限られたデータセットでトレーニングされたSSLベースのCTC-DIDモデルは、微調整されたWhisperモデルとECAPA-TDNNモデルの両方を上回っている。
提案手法は、短い発話に対してより堅牢であり、ストリーミングでリアルタイムなアプリケーションに容易に適応できることが示されている。
- 参考スコア(独自算出の注目度): 5.548949834680307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a Dialect Identification (DID) approach inspired by the Connectionist Temporal Classification (CTC) loss function as used in Automatic Speech Recognition (ASR). CTC-DID frames the dialect identification task as a limited-vocabulary ASR system, where dialect tags are treated as a sequence of labels for a given utterance. For training, the repetition of dialect tags in transcriptions is estimated either using a proposed Language-Agnostic Heuristic (LAH) approach or a pre-trained ASR model. The method is evaluated on the low-resource Arabic Dialect Identification (ADI) task, with experimental results demonstrating that an SSL-based CTC-DID model, trained on a limited dataset, outperforms both fine-tuned Whisper and ECAPA-TDNN models. Notably, CTC-DID also surpasses these models in zero-shot evaluation on the Casablanca dataset. The proposed approach is found to be more robust to shorter utterances and is shown to be easily adaptable for streaming, real-time applications, with minimal performance degradation.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)で使用される接続性時間分類(CTC)損失関数にインスパイアされたディレクタ識別(DID)手法を提案する。
CTC-DIDは、方言識別タスクを限定語彙ASRシステムとみなし、方言タグは与えられた発話のラベルのシーケンスとして扱われる。
トレーニングでは、言語非依存的ヒューリスティック(LAH)アプローチまたは事前訓練されたASRモデルを用いて、転写中の方言タグの反復を推定する。
この手法は低リソースのアラビア方言識別(ADI)タスクで評価され、SSLベースのCTC-DIDモデルが限られたデータセットで訓練され、微調整されたWhisperモデルとCAPA-TDNNモデルの両方より優れていることを示す実験結果を得た。
特に、CTC-DIDはカサブランカデータセットのゼロショット評価においてこれらのモデルを上回る。
提案手法は, 短い発話に対してより堅牢であり, ストリーミング, リアルタイムアプリケーションに容易に適応でき, 性能劣化を最小限に抑えることができる。
関連論文リスト
- Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition [8.775527128005136]
本稿では,補助情報を必要としない多話者自動音声認識のための新しい枠組みを提案する。
Speaker-Distinguishable CTC (SD-CTC) は、CTCの拡張であり、トークンとその対応する話者ラベルを各フレームに共同割り当てる。
SD-CTCとSOTを用いたマルチタスク学習は,SOTモデルの誤り率を26%削減し,補助情報に依存する最先端手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-06-09T07:43:43Z) - Focused Discriminative Training For Streaming CTC-Trained Automatic Speech Recognition Models [5.576934300567641]
本稿では,ストリーム語片エンドツーエンド(E2E)自動音声認識(ASR)モデルを改善するために,FDT(Focused Discriminative Training)と呼ばれる新たなトレーニングフレームワークを提案する。
提案手法は,音声の難解なセグメントに対するモデルの認識を識別し,改善するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-08-23T11:54:25Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Low-resource speech recognition and dialect identification of Irish in a multi-task framework [7.981589711420179]
本稿では,アイルランド語(ゲール語)低音源音声認識(ASR)と方言識別(DID)のための中間CTC(Inter CTC)を用いて学習したハイブリッドCTC/Attention Encoder-decoderモデルについて検討する。
ASR(TDNN-HMM)とDIDECA(PA-TDNN)のトレーニングモデルと比較した。
論文 参考訳(メタデータ) (2024-05-02T13:54:39Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - A Study on Effects of Implicit and Explicit Language Model Information
for DBLSTM-CTC Based Handwriting Recognition [51.36957172200015]
本稿では,DBLSTM-CTCを用いた手書き文字認識における暗黙的および明示的言語モデル情報の効果について検討する。
DBLSTMをトレーニングするために100万行のトレーニング文を使用しても、明示的な言語モデルを使用することは有用です。
論文 参考訳(メタデータ) (2020-07-31T08:23:37Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。