論文の概要: Training-Free Intelligibility-Guided Observation Addition for Noisy ASR
- arxiv url: http://arxiv.org/abs/2602.20967v1
- Date: Tue, 24 Feb 2026 14:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.793498
- Title: Training-Free Intelligibility-Guided Observation Addition for Noisy ASR
- Title(参考訳): ノイズASRのための訓練不要の信頼性誘導型観察付加法
- Authors: Haoyang Li, Changsong Liu, Wei Rao, Hao Shi, Sakriani Sakti, Eng Siong Chng,
- Abstract要約: 本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
- 参考スコア(独自算出の注目度): 57.74127683005929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) degrades severely in noisy environments. Although speech enhancement (SE) front-ends effectively suppress background noise, they often introduce artifacts that harm recognition. Observation addition (OA) addressed this issue by fusing noisy and SE enhanced speech, improving recognition without modifying the parameters of the SE or ASR models. This paper proposes an intelligibility-guided OA method, where fusion weights are derived from intelligibility estimates obtained directly from the backend ASR. Unlike prior OA methods based on trained neural predictors, the proposed method is training-free, reducing complexity and enhances generalization. Extensive experiments across diverse SE-ASR combinations and datasets demonstrate strong robustness and improvements over existing OA baselines. Additional analyses of intelligibility-guided switching-based alternatives and frame versus utterance-level OA further validate the proposed design.
- Abstract(参考訳): 音声認識(ASR)はノイズの多い環境で著しく劣化する。
音声強調(SE)フロントエンドは背景雑音を効果的に抑制するが、認識を害するアーティファクトをしばしば導入する。
観測加算(OA)は、雑音とSE強調音声を融合させ、SEモデルやASRモデルのパラメータを変更することなく認識を改善することでこの問題に対処した。
本稿では,バックエンドASRから直接得られる信頼度推定から融合重みを導出する,知能誘導型OA法を提案する。
トレーニングされた神経予測器に基づく従来のOA手法とは異なり、提案手法はトレーニング不要であり、複雑さを低減し、一般化を促進する。
多様なSE-ASRの組み合わせとデータセットにわたる大規模な実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
可知性誘導型スイッチング方式とフレーム対発話レベルOAのさらなる分析により,提案手法のさらなる検証が可能となった。
関連論文リスト
- ASK: Adaptive Self-improving Knowledge Framework for Audio Text Retrieval [19.94287753279928]
オーディオテキスト検索(ATR)の主流パラダイムは、ミニバッチベースのコントラスト学習に依存している。
Gradient Locality Bottleneck(GLB)は、モデルがバッチ外の知識を活用することを構造的に防止する。
Representation-Drift Mismatch(Representation-Drift Mismatch、RDM)とは、静的知識ベースが進化するモデルと徐々に不一致になり、ガイダンスがノイズになる現象である。
論文 参考訳(メタデータ) (2025-12-11T14:48:30Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - AS-ASR: A Lightweight Framework for Aphasia-Specific Automatic Speech Recognition [5.916484958997203]
AS-ASRはWhisper-tinyに基づく軽量な失語特異的音声認識フレームワークである。
提案手法は,様々な比率で標準音声と失語音声を体系的に組み合わせ,ロバストな一般化を実現する。
論文 参考訳(メタデータ) (2025-06-06T22:38:53Z) - Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding [26.98755758066905]
我々は、SLUモデルをASRシステムでよく見られる雑音に曝すことにより、ASRエラーに耐えるように訓練する。
本稿では,任意のASRシステムに適用可能な雑音を導入するための,新しい,バイアスの少ない拡張手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:22Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。