論文の概要: Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2603.06193v1
- Date: Fri, 06 Mar 2026 12:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.58849
- Title: Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding
- Title(参考訳): Whisper-CD:マルチ負のコントラストデコーディングを用いた高精度長文音声認識
- Authors: Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim,
- Abstract要約: 本稿では,3つの音響的動機を持つ摂動から計算した負のロジットとクリーンオーディオロジットを対比する,トレーニング不要のコントラストデコーディングフレームワークであるWhisper-CDを提案する。
我々はこれらの負をlog-sum-exp演算子を介して集約し、トークン・バイ・トークン・デコーディングのための統一された多負の目的を構築する。
Whisper-CDはWERを最大24.3pp削減し、ビームサーチよりも48%高速なトークン生成スループットを示す。
- 参考スコア(独自算出の注目度): 10.438946760176787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-form speech recognition with large encoder-decoder models such as Whisper often exhibit hallucinations, repetition loops, and content omissions. These errors can accumulate and be further amplified when the previous segment's transcription is used as decoding context. We propose Whisper-CD, a training-free contrastive decoding framework that contrasts clean-audio logits against negative logits computed from three acoustically motivated perturbations: Gaussian noise injection, silence signal, and audio temporal shift. We aggregate these negatives via the log-sum-exp operator, building a unified multi-negative objective for token-by-token decoding. Across five English long-form benchmarks, Whisper-CD reduces WER by up to 24.3pp on CORAAL and shows 48% faster token generation throughput than beam search. Because Whisper-CD operates purely at inference time, it can be applied as a drop-in replacement to already-deployed Whisper systems without retraining.
- Abstract(参考訳): ウィスパーのような大きなエンコーダデコーダモデルを用いた長文音声認識では、幻覚、繰り返しループ、内容欠落がしばしば見られる。
これらのエラーは、前のセグメントの書き起こしがデコードコンテキストとして使用されるときに蓄積され、さらに増幅される。
本稿では, ガウス雑音注入, サイレント信号, 音声時間シフトの3つの摂動から算出した負のロジットと, クリーンオーディオロジットを対比した学習自由なコントラッシブデコーディングフレームワークであるWhisper-CDを提案する。
我々はこれらの負をlog-sum-exp演算子を介して集約し、トークン・バイ・トークン・デコーディングのための統一された多負の目的を構築する。
英国の5つのロングフォームベンチマークにおいて、Whisper-CDは、CORAAL上でWERを最大24.3pp削減し、ビームサーチよりも48%高速なトークン生成スループットを示す。
Whisper-CDは推論時に純粋に動作するので、再トレーニングせずに既にデプロイされたWhisperシステムへのドロップイン代替として適用することができる。
関連論文リスト
- CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection [14.989929439744172]
我々は、Whisperのクロスアテンションに埋め込まれた時間アライメントを利用して自動回帰デコーディングをガイドするSimul-Whisperを紹介する。
複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語誤り率を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:07:26Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文 参考訳(メタデータ) (2020-02-12T18:53:56Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。