論文の概要: On the Design of Diffusion-based Neural Speech Codecs
- arxiv url: http://arxiv.org/abs/2504.08470v1
- Date: Fri, 11 Apr 2025 11:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:52.487160
- Title: On the Design of Diffusion-based Neural Speech Codecs
- Title(参考訳): 拡散型ニューラル音声コーデックの設計について
- Authors: Pietro Foti, Andreas Brendel,
- Abstract要約: 拡散モデル(DM)は生成モデル(GAN)に代わる有望な代替品である
DMは、様々なオーディオ生成アプリケーションの中で、音声や音声の符号化に成功している。
拡散に基づくNSCの包括的解析を3つのコントリビューションに分割する。
- 参考スコア(独自算出の注目度): 9.600882301172653
- License:
- Abstract: Recently, neural speech codecs (NSCs) trained as generative models have shown superior performance compared to conventional codecs at low bitrates. Although most state-of-the-art NSCs are trained as Generative Adversarial Networks (GANs), Diffusion Models (DMs), a recent class of generative models, represent a promising alternative due to their superior performance in image generation relative to GANs. Consequently, DMs have been successfully applied for audio and speech coding among various other audio generation applications. However, the design of diffusion-based NSCs has not yet been explored in a systematic way. We address this by providing a comprehensive analysis of diffusion-based NSCs divided into three contributions. First, we propose a categorization based on the conditioning and output domains of the DM. This simple conceptual framework allows us to define a design space for diffusion-based NSCs and to assign a category to existing approaches in the literature. Second, we systematically investigate unexplored designs by creating and evaluating new diffusion-based NSCs within the conceptual framework. Finally, we compare the proposed models to existing GAN and DM baselines through objective metrics and subjective listening tests.
- Abstract(参考訳): 近年、生成モデルとして訓練されたニューラル音声コーデック(NSC)は、従来の低ビットレートのコーデックに比べて優れた性能を示している。
現代のほとんどのNACはGAN(Generative Adversarial Networks)として訓練されているが、最近の生成モデルのクラスである拡散モデル(Diffusion Models, DMs)は、GAN(Generative Adversarial Networks)と比較して画像生成の性能が優れており、将来的な選択肢である。
その結果、他の様々な音声生成アプリケーションの中で、音声や音声の符号化にDMがうまく応用されている。
しかし, 拡散型NSCの設計は, まだ体系的な方法では研究されていない。
拡散に基づくNSCの包括的解析を3つのコントリビューションに分割することで,この問題に対処する。
まず,DMの条件付けと出力領域に基づく分類を提案する。
この単純な概念的枠組みにより、拡散型NSCの設計空間を定義し、文献における既存のアプローチにカテゴリを割り当てることができる。
第2に,新たな拡散型NSCを概念的枠組み内で作成し,評価することにより,探索されていない設計を体系的に検討する。
最後に、提案したモデルと既存のGANおよびDMベースラインを比較し、客観的メトリクスと主観的聴取テストを通して比較する。
関連論文リスト
- An Efficient Framework for Enhancing Discriminative Models via Diffusion Techniques [12.470257882838126]
拡散に基づく識別モデル強化フレームワーク(DBMEF)を提案する。
このフレームワークは、差別的および生成的モデルをトレーニング不要な方法でシームレスに統合する。
DBMEFは、プラグアンドプレイ方式で識別モデルの分類精度と能力を効果的に向上させることができる。
論文 参考訳(メタデータ) (2024-12-12T08:46:22Z) - Informed deep hierarchical classification: a non-standard analysis inspired approach [0.0]
出力層の前に配置された特定のプロジェクション演算子を備えた多出力ディープニューラルネットワークで構成されている。
このようなアーキテクチャの設計は、LH-DNN(Lexicographic Hybrid Deep Neural Network)と呼ばれ、異なる研究分野と非常に離れた研究分野のツールを組み合わせることで実現されている。
アプローチの有効性を評価するために、階層的な分類タスクに適した畳み込みニューラルネットワークであるB-CNNと比較する。
論文 参考訳(メタデータ) (2024-09-25T14:12:50Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。