論文の概要: Reproducing and Dissecting Denoising Language Models for Speech Recognition
- arxiv url: http://arxiv.org/abs/2512.13576v1
- Date: Mon, 15 Dec 2025 17:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.781658
- Title: Reproducing and Dissecting Denoising Language Models for Speech Recognition
- Title(参考訳): 音声認識のための復号化言語モデルの再生と解離
- Authors: Dorian Koch, Albert Zeyer, Nick Rossenbach, Ralf Schlüter, Hermann Ney,
- Abstract要約: 音声認識(ASR)のための従来の言語モデル(LM)に代わる強力な代替手段として、DLM(Denoising Language Model)が提案されている。
本稿では,DLMの大規模独立研究について述べる。
- 参考スコア(独自算出の注目度): 31.91567892562116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Denoising language models (DLMs) have been proposed as a powerful alternative to traditional language models (LMs) for automatic speech recognition (ASR), motivated by their ability to use bidirectional context and adapt to a specific ASR model's error patterns. However, the complexity of the DLM training pipeline has hindered wider investigation. This paper presents the first independent, large-scale empirical study of DLMs. We build and release a complete, reproducible pipeline to systematically investigate the impact of key design choices. We evaluate dozens of configurations across multiple axes, including various data augmentation techniques (e.g., SpecAugment, dropout, mixup), different text-to-speech systems, and multiple decoding strategies. Our comparative analysis in a common subword vocabulary setting demonstrates that DLMs outperform traditional LMs, but only after a distinct compute tipping point. While LMs are more efficient at lower budgets, DLMs scale better with longer training, mirroring behaviors observed in diffusion language models. However, we observe smaller improvements than those reported in prior character-based work, which indicates that the DLM's performance is conditional on factors such as the vocabulary. Our analysis reveals that a key factor for improving performance is to condition the DLM on richer information from the ASR's hypothesis space, rather than just a single best guess. To this end, we introduce DLM-sum, a novel method for decoding from multiple ASR hypotheses, which consistently outperforms the previously proposed DSR decoding method. We believe our findings and public pipeline provide a crucial foundation for the community to better understand, improve, and build upon this promising class of models. The code is publicly available at https://github.com/rwth-i6/2025-denoising-lm/.
- Abstract(参考訳): 自動音声認識(ASR)のための従来の言語モデル(LM)の強力な代替として、言語モデル(DLM)が提案されている。
しかし、DLMトレーニングパイプラインの複雑さにより、より広範な調査が妨げられている。
本稿では,DLMの大規模独立研究について述べる。
私たちは、重要な設計選択の影響を体系的に調査する、完全な再現可能なパイプラインを構築し、リリースします。
複数の軸にまたがる多数の構成の評価を行い、データ拡張技術(例えば、SpecAugment、Dropout、mixup)、異なるテキスト音声システム、複数のデコード戦略などについて検討した。
我々の比較分析では,DLMが従来のLMよりも優れているが,計算点が異なる結果が得られた。
LMは低予算でより効率的であるが、DLMはより長いトレーニングでスケールし、拡散言語モデルで観察される振る舞いを反映する。
しかし,従来の文字ベースの作業よりも小さな改善が見られ,これはDLMの性能が語彙などの要因に左右されることを示唆している。
分析の結果, 性能向上の鍵となる要因は, 一つの最良推測ではなく, ASR の仮説空間からのリッチな情報に DLM を適応させることであることがわかった。
そこで本研究では,複数のASR仮説から復号する新しい手法であるDLM-sumを導入する。
私たちの発見と公開パイプラインは、この有望なモデルのクラスをより理解し、改善し、構築する上で、コミュニティにとって重要な基盤となると信じています。
コードはhttps://github.com/rwth-i6/2025-denoising-lm/で公開されている。
関連論文リスト
- Scaling Behavior of Discrete Diffusion Language Models [74.72926629897636]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (2025-12-11T17:54:10Z) - Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文 参考訳(メタデータ) (2025-08-14T17:47:22Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - DLM-One: Diffusion Language Models for One-Step Sequence Generation [63.43422118066493]
DLM-Oneは連続拡散言語モデルを用いた1ステップシーケンス生成のためのスコア蒸留ベースのフレームワークである。
DLM-Oneが言語モデリングにおけるサンプリング効率を大幅に向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-30T22:42:23Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。
LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。
我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文 参考訳(メタデータ) (2025-03-03T12:19:12Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。