論文の概要: Whisper Has an Internal Word Aligner
- arxiv url: http://arxiv.org/abs/2509.09987v1
- Date: Fri, 12 Sep 2025 06:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.987908
- Title: Whisper Has an Internal Word Aligner
- Title(参考訳): Whisperは内部の単語アグリグナーを持っている
- Authors: Sung-Lin Yeh, Yen Meng, Hao Tang,
- Abstract要約: 既存のアプローチでは、追加のトレーニングが必要になるか、単に競争力がないだけである。
我々はWhisperで、正確な単語アライメントをキャプチャし、そうでないものとは異なる特徴を持つ注意頭を見つける。
本稿では,教師がWhisperに文字を強制している間に,注意ヘッドをフィルタリングして単語アライメントを抽出するための教師なしアプローチを提案する。
- 参考スコア(独自算出の注目度): 13.485218408433928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing interest in obtaining accurate word-level timestamps from strong automatic speech recognizers, in particular Whisper. Existing approaches either require additional training or are simply not competitive. The evaluation in prior work is also relatively loose, typically using a tolerance of more than 200 ms. In this work, we discover attention heads in Whisper that capture accurate word alignments and are distinctively different from those that do not. Moreover, we find that using characters produces finer and more accurate alignments than using wordpieces. Based on these findings, we propose an unsupervised approach to extracting word alignments by filtering attention heads while teacher forcing Whisper with characters. Our approach not only does not require training but also produces word alignments that are more accurate than prior work under a stricter tolerance between 20 ms and 100 ms.
- Abstract(参考訳): 強い自動音声認識器、特にWhisperから正確な単語レベルのタイムスタンプを取得することへの関心が高まっている。
既存のアプローチでは、追加のトレーニングが必要になるか、単に競争力がないだけである。
本研究は,200ms以上の耐久性を用いて,単語の正確なアライメントを捕捉するアテンションヘッドをWhisperで発見する。
さらに,文字を用いた場合,ワードピースを用いた場合よりも高精度で高精度なアライメントが得られることがわかった。
これらの知見に基づいて,教師がWhisperに文字を強制しながら,注意ヘッドをフィルタリングして単語アライメントを抽出するための教師なしアプローチを提案する。
提案手法は,訓練を必要とせず,20msから100msまでの厳格な許容条件下で,先行作業よりも高精度な単語アライメントを生成する。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - End-to-End Word-Level Pronunciation Assessment with MASK Pre-training [28.01614106625894]
本稿では, アンダーライン・アンダーライン・アンダーライン・アセスメント (MPA) に対するアンダーライン・マスキード事前訓練法を提案する。
MPAは整合性のあるコンポーネントを使わずにエンドツーエンドのトレーニングをサポートし、予測時にミスアライメントの問題を大幅に解決できる。
SpeechOcean762データセットの実験結果は、MPAが明示的なアライメントを伴わずに、以前の方法よりも優れたパフォーマンスを実現することを示した。
論文 参考訳(メタデータ) (2023-06-05T08:18:01Z) - Third-Party Aligner for Neural Word Alignments [18.745852103348845]
本稿では,ニューラルネットワークによる単語アライメントトレーニングの監督のために,サードパーティ製単語アライメント器によって生成された単語アライメントを提案する。
実験により、我々のアプローチは第三者の監督に対して驚くほど自己補正が可能であることが示された。
我々は最先端の単語アライメント性能を達成し、最高のサードパーティアライメントよりも平均2ポイント以上低いアライメント誤り率を持つ。
論文 参考訳(メタデータ) (2022-11-08T12:30:08Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Mask-Align: Self-Supervised Neural Word Alignment [47.016975106231875]
Mask-Alignは、単語アライメントタスク用に特別に設計された自己監督モデルです。
我々のモデルでは,各トークンを並列にマスクし,予測し,教師付き損失を伴わずに高品質なアライメントを抽出する。
論文 参考訳(メタデータ) (2020-12-13T21:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。