論文の概要: Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.13044v1
- Date: Mon, 19 Jan 2026 13:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.913241
- Title: Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
- Title(参考訳): タイ語自動音声認識のための台風ASRリアルタイム高速変換器
- Authors: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul,
- Abstract要約: 低遅延タイ語音声認識のための115MパラメータFastConformer-TransducerモデルであるTyphoon ASR Real-timeを提案する。
我々のコンパクトモデルでは,Whisper Large-v3に比べて計算コストが45倍削減され,精度は同等である。
タイ語 ASR の課題に対処するため,タイ語で確立された慣行に従って,ゴールドスタンダードの人間ラベル付きデータセットである Typhoon ASR Benchmark をリリースする。
- 参考スコア(独自算出の注目度): 12.692166506908803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.
- Abstract(参考訳): Whisperのような大規模なエンコーダデコーダモデルは、オフラインで強い書き起こしを実現するが、レイテンシが高いため、ストリーミングアプリケーションには実用的ではない。
しかし、事前訓練されたチェックポイントのアクセシビリティのため、タイのオープンなASRランドスケープはこれらのオフラインアーキテクチャに支配されており、効率的なストリーミングソリューションにおいて重要なギャップを残している。
低遅延タイ語音声認識のための115MパラメータFastConformer-TransducerモデルであるTyphoon ASR Real-timeを提案する。
我々のコンパクトモデルでは、Whisper Large-v3に比べて計算コストが45倍削減され、精度は同等である。
我々の正規化パイプラインは、タイ文字の体系的な曖昧さを解決します。
さらに、中央タイ語のパフォーマンスを保ったイサン方言適応のための2段階のカリキュラム学習手法を導入する。
タイ語 ASR における再現性の問題に対処するため,タイ語言語規則に従って,ゴールドスタンダードの人文ラベルデータセットである Typhoon ASR Benchmark を公開し,研究コミュニティに標準化された評価プロトコルを提供する。
関連論文リスト
- A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。
台湾語マンダリン音声における枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-10T17:30:32Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization [0.19791587637442667]
逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を十分に整形されたテキストに変換するために重要である。
我々はITNのためのストリーミング事前学習言語モデルを導入し、頑健性を向上させるために事前学習言語表現を活用する。
提案手法は,非ストリーミングITNに匹敵する精度を達成し,ベトナムのデータセット上で既存のストリーミングITNモデルを上回る精度を実現する。
論文 参考訳(メタデータ) (2025-05-30T05:41:03Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。