論文の概要: Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
- arxiv url: http://arxiv.org/abs/2509.16622v1
- Date: Sat, 20 Sep 2025 10:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.890191
- Title: Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
- Title(参考訳): ASRと復調処理のためのオーディオコンディション拡散LDM
- Authors: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland,
- Abstract要約: 拡散型大言語モデルLLaDAを用いた音声認識(ASR)に関する実験的検討を行った。
ランダムマスキング,低信頼マスキング,半自己回帰戦略について検討し,Whisper-LLaDAがベースラインと比較してWERを大幅に低減することを示した。
ほとんどの実験的な構成はWhisper-LLaMAベースラインよりも高速な推論を実現するが、認識精度はわずかに低い。
- 参考スコア(独自算出の注目度): 33.36615989947073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.
- Abstract(参考訳): 拡散型大規模言語モデル(DLLM)は,近年,自己回帰デコーダの代替として注目されている。
本研究では,拡散型大言語モデルLLaDAを自動音声認識(ASR)に用いる実験的検討を行った。
本稿ではまず,Whisper-LLaMA トランスクリプトの外部記述に基づく処理モジュールとしての利用について検討する。
ランダムマスキング,低信頼マスキング,半自己回帰戦略を検討した結果,Whisper-LLaDAはベースラインに比べてWERを大幅に低減することがわかった。
LibriSpeechでは、最高のカスケードシステムはテストクリーン/テストスプリットで2.25%/4.94% WERを達成し、テストスプリットでWhisper-LLaMAベースラインを12.3%改善した。
対照的に、音響的特徴のない平文のLLaDAは精度の向上に失敗し、オーディオ条件の埋め込みの重要性を強調した。
さらに,Whisper-LLaDAを拡散型および半自己回帰型デコーダを用いたASR用スタンドアロンデコーダとして評価した。
ほとんどの実験的な構成はWhisper-LLaMAベースラインよりも高速な推論を実現するが、認識精度はわずかに低い。
これらの知見は, ASR における拡散型 LLM の実証的考察と, 改善に向けた有望な方向性を示すものである。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition [46.438575751932866]
LipGERはノイズロスASRのための視覚的手がかりを利用するためのフレームワークである。
LipGERは単語誤り率を1.1%-49.2%の範囲で改善することを示す。
また、リップモーションキューを備えた仮説転写ペアを備えた大規模データセットであるLipHypをリリースする。
論文 参考訳(メタデータ) (2024-06-06T18:17:59Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。