論文の概要: Word Level Timestamp Generation for Automatic Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2505.15646v1
- Date: Wed, 21 May 2025 15:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.739241
- Title: Word Level Timestamp Generation for Automatic Speech Recognition and Translation
- Title(参考訳): 音声認識・翻訳のための単語レベルタイムスタンプ生成
- Authors: Ke Hu, Krishna Puvvada, Elena Rastorgueva, Zhehuai Chen, He Huang, Shuoyang Ding, Kunal Dhawan, Hainan Xu, Jagadeesh Balam, Boris Ginsburg,
- Abstract要約: カナリアモデルにおいて,単語レベルのタイムスタンプ予測を可能にするためのデータ駆動型手法を提案する。
提案手法は,4言語で20~120msのタイムスタンプ予測誤差を用いて,80%から90%の精度とリコール率を示す。
- 参考スコア(独自算出の注目度): 28.176210372699618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a data-driven approach for enabling word-level timestamp prediction in the Canary model. Accurate timestamp information is crucial for a variety of downstream tasks such as speech content retrieval and timed subtitles. While traditional hybrid systems and end-to-end (E2E) models may employ external modules for timestamp prediction, our approach eliminates the need for separate alignment mechanisms. By leveraging the NeMo Forced Aligner (NFA) as a teacher model, we generate word-level timestamps and train the Canary model to predict timestamps directly. We introduce a new <|timestamp|> token, enabling the Canary model to predict start and end timestamps for each word. Our method demonstrates precision and recall rates between 80% and 90%, with timestamp prediction errors ranging from 20 to 120 ms across four languages, with minimal WER degradation. Additionally, we extend our system to automatic speech translation (AST) tasks, achieving timestamp prediction errors around 200 milliseconds.
- Abstract(参考訳): カナリアモデルにおいて,単語レベルのタイムスタンプ予測を可能にするためのデータ駆動型手法を提案する。
正確なタイムスタンプ情報は、音声コンテンツ検索やタイムド字幕などの下流タスクに不可欠である。
従来のハイブリッドシステムとエンド・ツー・エンド(E2E)モデルでは,タイムスタンプ予測に外部モジュールを用いる場合があるが,本手法ではアライメント機構の分離は不要である。
教師モデルとしてNeMo Forced Aligner(NFA)を活用することで,単語レベルのタイムスタンプを生成し,カナリアモデルのトレーニングを行い,タイムスタンプを直接予測する。
新たに<|timestamp|>トークンを導入し,各単語の開始時刻と終了時刻を予測する。
提案手法は,4言語で20~120msのタイムスタンプ予測誤差を最小化して,80%から90%の精度とリコール率を示す。
さらに,自動音声翻訳(AST)タスクに拡張し,200ミリ秒前後のタイムスタンプ予測誤差を実現する。
関連論文リスト
- TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文 参考訳(メタデータ) (2024-12-12T18:59:11Z) - Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z) - AutoTimes: Autoregressive Time Series Forecasters via Large Language Models [67.83502953961505]
AutoTimesは時系列を言語トークンの埋め込み空間に投影し、任意の長さで将来予測を生成する。
時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。
AutoTimesは、トレーニング可能なパラメータが0.1%、トレーニング/推論のスピードアップが5ドル以上で最先端を実現している。
論文 参考訳(メタデータ) (2024-02-04T06:59:21Z) - Pre-trained Language Model with Prompts for Temporal Knowledge Graph
Completion [30.50032335014021]
我々は、新しいTKGCモデル、すなわち、TKGC(PPT)のための Prompts 付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換することで、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-13T12:53:11Z) - FullStop:Punctuation and Segmentation Prediction for Dutch with
Transformers [1.2246649738388389]
現在提案されているモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。
入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。
結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-01-09T13:12:05Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。