論文の概要: Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization
- arxiv url: http://arxiv.org/abs/2505.24229v1
- Date: Fri, 30 May 2025 05:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.784999
- Title: Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization
- Title(参考訳): 逆テキスト正規化のための動的文脈認識型事前学習言語モデル
- Authors: Luong Ho, Khanh Le, Vinh Pham, Bao Nguyen, Tan Tran, Duc Chau,
- Abstract要約: 逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を十分に整形されたテキストに変換するために重要である。
我々はITNのためのストリーミング事前学習言語モデルを導入し、頑健性を向上させるために事前学習言語表現を活用する。
提案手法は,非ストリーミングITNに匹敵する精度を達成し,ベトナムのデータセット上で既存のストリーミングITNモデルを上回る精度を実現する。
- 参考スコア(独自算出の注目度): 0.19791587637442667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Text Normalization (ITN) is crucial for converting spoken Automatic Speech Recognition (ASR) outputs into well-formatted written text, enhancing both readability and usability. Despite its importance, the integration of streaming ITN within streaming ASR remains largely unexplored due to challenges in accuracy, efficiency, and adaptability, particularly in low-resource and limited-context scenarios. In this paper, we introduce a streaming pretrained language model for ITN, leveraging pretrained linguistic representations for improved robustness. To address streaming constraints, we propose Dynamic Context-Aware during training and inference, enabling adaptive chunk size adjustments and the integration of right-context information. Experimental results demonstrate that our method achieves accuracy comparable to non-streaming ITN and surpasses existing streaming ITN models on a Vietnamese dataset, all while maintaining low latency, ensuring seamless integration into ASR systems.
- Abstract(参考訳): 逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を、読みやすさと使いやすさの両立を図るために不可欠である。
その重要性にもかかわらず、ストリーミングASRにおけるストリーミングITNの統合は、特に低リソースおよび限定コンテキストのシナリオにおいて、正確性、効率、適応性の課題のために、ほとんど検討されていない。
本稿では,ITNのためのストリーミング事前学習言語モデルを提案する。
ストリーミング制約に対処するため、トレーニングと推論中に動的コンテキスト認識を提案し、適応的なチャンクサイズ調整と右コンテキスト情報の統合を可能にする。
実験の結果,本手法は非ストリーミングITNに匹敵する精度を実現し,ベトナムのデータセット上での既存のストリーミングITNモデルを上回る精度を実現し,低レイテンシを維持しつつ,ASRシステムへのシームレスな統合を実現していることがわかった。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Improving Robustness of Neural Inverse Text Normalization via
Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である
本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。
提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-12T06:05:57Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。