Fugu-MT 論文翻訳(概要): TransFusion: Transcribing Speech with Multinomial Diffusion

論文の概要: TransFusion: Transcribing Speech with Multinomial Diffusion

arxiv url: http://arxiv.org/abs/2210.07677v1
Date: Fri, 14 Oct 2022 10:01:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 17:53:52.546584
Title: TransFusion: Transcribing Speech with Multinomial Diffusion
Title（参考訳）: TransFusion:多項拡散による音声の書き起こし
Authors: Matthew Baas, Kevin Eloff, Herman Kamper
Abstract要約: 本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
参考スコア（独自算出の注目度）: 20.165433724198937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown exceptional scaling properties in the image synthesis domain, and initial attempts have shown similar benefits for applying diffusion to unconditional text synthesis. Denoising diffusion models attempt to iteratively refine a sampled noise signal until it resembles a coherent signal (such as an image or written sentence). In this work we aim to see whether the benefits of diffusion models can also be realized for speech recognition. To this end, we propose a new way to perform speech recognition using a diffusion model conditioned on pretrained speech features. Specifically, we propose TransFusion: a transcribing diffusion model which iteratively denoises a random character sequence into coherent text corresponding to the transcript of a conditioning utterance. We demonstrate comparable performance to existing high-performing contrastive models on the LibriSpeech speech recognition benchmark. To the best of our knowledge, we are the first to apply denoising diffusion to speech recognition. We also propose new techniques for effectively sampling and decoding multinomial diffusion models. These are required because traditional methods of sampling from acoustic models are not possible with our new discrete diffusion approach. Code and trained models are available: https://github.com/RF5/transfusion-asr
Abstract（参考訳）: 拡散モデルは画像合成領域において例外的なスケーリング特性を示し、初期の試みは非条件テキスト合成に拡散を適用するのに類似した利点を示している。雑音拡散モデルは、コヒーレント信号(画像や文など)に類似するまで、サンプリングされた雑音信号を反復的に洗練しようとする。本研究では,拡散モデルの利点が音声認識にも有効かどうかを検討することを目的とする。そこで本稿では,事前学習した音声特徴に条件付き拡散モデルを用いて音声認識を行う手法を提案する。具体的には,条件付き発話の書き起こしに対応するコヒーレントテキストにランダムな文字列列を反復的に発音する転写拡散モデルを提案する。我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。我々の知る限りでは、音声認識に難読化拡散を適用するのは初めてである。また,多項拡散モデルを効果的にサンプリング・復号する新しい手法を提案する。新しい離散拡散法では従来の音響モデルからのサンプリングは不可能であるため,これらが必要となる。コードとトレーニングされたモデル: https://github.com/rf5/transfusion-asr

関連論文リスト

Posterior Transition Modeling for Unsupervised Diffusion-Based Speech Enhancement [26.937216751657697]
クリーン音声の表現的生成先として拡散モデルを用いた教師なし音声強調について検討する。既存の手法は、ノイズ摂動確率スコアを近似して雑音を用いた逆拡散過程を導出する。拡散状態の条件逆遷移分布を直接モデル化する2つの代替アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-03T07:42:02Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文参考訳（メタデータ） (2023-09-19T09:11:31Z)
Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image Captioning [36.4086473737433]
本稿では,プレフィックス拡散(Prefix-diffusion)と呼ばれる,連続拡散を伴う軽量画像キャプションネットワークを提案する。多様性を実現するために,拡散モデルの復調過程にプレフィックス画像埋め込みを注入する効率的な手法を設計する。トレーニング可能なパラメータを減らすために,事前学習モデルを用いて画像の特徴を抽出し,さらに余分なマッピングネットワークを設計する。
論文参考訳（メタデータ） (2023-09-10T08:55:24Z)
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文参考訳（メタデータ） (2023-05-22T14:02:44Z)
DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。 LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文参考訳（メタデータ） (2023-04-23T21:05:33Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文参考訳（メタデータ） (2023-03-23T15:17:15Z)
Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。 DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-16T07:32:31Z)
Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。 SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。 COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文参考訳（メタデータ） (2022-12-06T16:08:16Z)
DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-11-28T03:25:49Z)
Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文参考訳（メタデータ） (2022-02-10T18:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。