論文の概要: Drax: Speech Recognition with Discrete Flow Matching
- arxiv url: http://arxiv.org/abs/2510.04162v1
- Date: Sun, 05 Oct 2025 11:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.495597
- Title: Drax: Speech Recognition with Discrete Flow Matching
- Title(参考訳): ドラックス:離散フローマッチングを用いた音声認識
- Authors: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya,
- Abstract要約: 拡散およびフローベース非自己回帰モデル(NAR)は、大規模言語モデリングにおいて強い将来性を示している。
自動音声認識(ASR)のための離散フローマッチングフレームワークDraxを提案する。
中間推定誤差に類似したトラジェクトリを通してモデルを誘導する音声条件付き確率パスを構築する。
- 参考スコア(独自算出の注目度): 26.991421132974097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow-based non-autoregressive (NAR) models have shown strong promise in large language modeling, however, their potential for automatic speech recognition (ASR) remains largely unexplored. We propose Drax, a discrete flow matching framework for ASR that enables efficient parallel decoding. To better align training with inference, we construct an audio-conditioned probability path that guides the model through trajectories resembling likely intermediate inference errors, rather than direct random noise to target transitions. Our theoretical analysis links the generalization gap to divergences between training and inference occupancies, controlled by cumulative velocity errors, thereby motivating our design choice. Empirical evaluation demonstrates that our approach attains recognition accuracy on par with state-of-the-art speech models while offering improved accuracy-efficiency trade-offs, highlighting discrete flow matching as a promising direction for advancing NAR ASR.
- Abstract(参考訳): 拡散およびフローベース非自己回帰モデル(NAR)は、大規模言語モデリングにおいて強い将来性を示しているが、自動音声認識(ASR)の可能性はいまだに明らかにされていない。
本稿では,効率的な並列デコーディングを実現するASRのための離散フローマッチングフレームワークであるDraxを提案する。
推論によるトレーニングをより良く整合させるため、ターゲット遷移への直接的ランダムノイズではなく、中間推定誤差に類似した軌道を通してモデルを誘導する音声条件付き確率パスを構築した。
我々の理論解析は、一般化ギャップと、累積速度誤差によって制御される訓練と推論の占有率の相違を関連付け、設計選択を動機付ける。
実験により,提案手法は音声認識精度を最先端の音声モデルと同等に向上し,精度と効率のトレードオフを向上し,離散フローマッチングをNAR ASRを前進させる有望な方向として強調した。
関連論文リスト
- Intention-Aware Diffusion Model for Pedestrian Trajectory Prediction [15.151965172049271]
本稿では,短期と長期の両方の動作意図を組み込んだ拡散型歩行者軌道予測フレームワークを提案する。
提案するフレームワークはETH, UCY, SDDのベンチマークで評価され, 最先端手法に対する競合性を実証した。
論文 参考訳(メタデータ) (2025-08-10T02:36:33Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition [13.189571090038674]
本稿では,トランスデューサニューラルネットワークを用いた音声認識(ASR)のストリーミング手法を提案する。
従来のフレームワークでは、ストリーミングトランスデューサモデルは、非ストリーミング再帰規則に基づく可能性関数の最大化のために訓練されている。
FoCCEトレーニングにより,ストリーミングトランスデューサの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-26T15:53:13Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。