論文の概要: Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.14219v1
- Date: Tue, 18 Nov 2025 07:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.99558
- Title: Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge Distillation
- Title(参考訳): 教師のように聴く:適応的層注意と知識蒸留によるウィスパーの幻覚の緩和
- Authors: Kumud Tripathi, Aditya Srinivas Menon, Aman Gaurav, Raj Prakash Gohil, Pankaj Wasnik,
- Abstract要約: Whisperモデルは、多言語およびゼロショット設定における強力なパフォーマンスのために広く採用されている。
ウィスパースタイルのASRシステムにおける幻覚を減らすための以前の研究は、主に誤ったコンテンツをフィルタリングするために、音声前処理や書き起こしの後処理に重点を置いていた。
本稿では,まずアダプティブ・レイヤ・アテンション(ALA)を用いてエンコーダのロバスト性を向上し,多目的知識蒸留(KD)フレームワークを用いた幻覚を抑制する2段階アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 9.486565210140279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Whisper model, an open-source automatic speech recognition system, is widely adopted for its strong performance across multilingual and zero-shot settings. However, it frequently suffers from hallucination errors, especially under noisy acoustic conditions. Previous works to reduce hallucinations in Whisper-style ASR systems have primarily focused on audio preprocessing or post-processing of transcriptions to filter out erroneous content. However, modifications to the Whisper model itself remain largely unexplored to mitigate hallucinations directly. To address this challenge, we present a two-stage architecture that first enhances encoder robustness through Adaptive Layer Attention (ALA) and further suppresses hallucinations using a multi-objective knowledge distillation (KD) framework. In the first stage, ALA groups encoder layers into semantically coherent blocks via inter-layer correlation analysis. A learnable multi-head attention module then fuses these block representations, enabling the model to jointly exploit low- and high-level features for more robust encoding. In the second stage, our KD framework trains the student model on noisy audio to align its semantic and attention distributions with a teacher model processing clean inputs. Our experiments on noisy speech benchmarks show notable reductions in hallucinations and word error rates, while preserving performance on clean speech. Together, ALA and KD offer a principled strategy to improve Whisper's reliability under real-world noisy conditions.
- Abstract(参考訳): オープンソースの自動音声認識システムであるWhisperモデルは、多言語およびゼロショット設定における強力な性能のために広く採用されている。
しかし、特に雑音のある音響条件下では、幻覚の誤りに悩まされることが多い。
ウィスパースタイルのASRシステムにおける幻覚を減らすための以前の研究は、主に誤ったコンテンツをフィルタリングするために、音声前処理や書き起こしの後処理に重点を置いていた。
しかし、Whisperモデル自体の変更は、幻覚を直接緩和するためにほとんど未検討のままである。
この課題に対処するため,まずアダプティブ・レイヤ・アテンション(ALA)を通じてエンコーダのロバスト性を向上し,多目的知識蒸留(KD)フレームワークを用いた幻覚を抑制する2段階アーキテクチャを提案する。
第1段階では、ALAは層間相関解析により、層を意味的にコヒーレントなブロックに符号化する。
学習可能なマルチヘッドアテンションモジュールはこれらのブロック表現を融合させ、モデルがより堅牢なエンコーディングのために低レベルと高レベルの機能を共同で利用できるようにする。
第2段階では、KDフレームワークはノイズの多い音声で生徒モデルを訓練し、その意味と注意分布を教師モデルと整合させ、クリーンな入力を処理する。
ノイズのある音声のベンチマーク実験では、クリーン音声の性能を維持しながら、幻覚や単語誤り率の顕著な低下が見られた。
ALAとKDは共に、現実のノイズ条件下でウィスパーの信頼性を改善するための原則的な戦略を提供している。
関連論文リスト
- Multi-Stage Speaker Diarization for Noisy Classrooms [1.4549461207028445]
本研究では,NvidiaのNeMoダイアリゼーションパイプラインを用いた多段ダイアリゼーションモデルの有効性を検討した。
ダイアリゼーション精度に対する聴覚の影響を評価し,様々な音声活動検出モデルを比較した。
また、フレームレベルのVAD予測と自動音声認識(ASR)ワードレベルのタイムスタンプを統合するハイブリッドVAD手法についても検討する。
論文 参考訳(メタデータ) (2025-05-16T05:35:06Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。