論文の概要: ADNAC: Audio Denoiser using Neural Audio Codec
- arxiv url: http://arxiv.org/abs/2511.01773v1
- Date: Mon, 03 Nov 2025 17:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.350306
- Title: ADNAC: Audio Denoiser using Neural Audio Codec
- Title(参考訳): ADNAC:ニューラルオーディオコーデックを用いたオーディオデノイザ
- Authors: Daniel Jimon, Mircea Vaida, Adriana Stan,
- Abstract要約: 本稿では,DAC(Descript Audio Codec)を聴くための概念実証法を提案する。
この作業は、大規模なカスタム合成データセット上でモデルをトレーニングすることで、U-Netsのような従来のニューラルネットワークの制限を克服する。
最終的に本論文は,高忠実で再生可能なオーディオ再生のためのPoCを提案することを目的とする。
- 参考スコア(独自算出の注目度): 2.752817022620644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio denoising is critical in signal processing, enhancing intelligibility and fidelity for applications like restoring musical recordings. This paper presents a proof-of-concept for adapting a state-of-the-art neural audio codec, the Descript Audio Codec (DAC), for music denoising. This work overcomes the limitations of traditional architectures like U-Nets by training the model on a large-scale, custom-synthesized dataset built from diverse sources. Training is guided by a multi objective loss function that combines time-domain, spectral, and signal-level fidelity metrics. Ultimately, this paper aims to present a PoC for high-fidelity, generative audio restoration.
- Abstract(参考訳): 音声の復調は、信号処理において重要であり、音楽録音の復元のような応用の知性や忠実さを高める。
本稿では,最先端のニューラルオーディオコーデックであるディスクオーディオコーデック(DAC)を聴くための概念実証について述べる。
この作業は、さまざまなソースから構築された大規模なカスタム合成データセット上でモデルをトレーニングすることで、U-Netsのような従来のアーキテクチャの制限を克服する。
トレーニングは、時間領域、スペクトル、信号レベルの忠実度メトリクスを組み合わせた多目的損失関数によって導かれる。
最終的に本論文は,高忠実で再生可能なオーディオ再生のためのPoCを提案することを目的とする。
関連論文リスト
- Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T20:59:15Z) - High-Fidelity Music Vocoder using Neural Audio Codecs [18.95453617434051]
DisCoderは、メルスペクトログラムから44.1kHzの高忠実度オーディオを再構成するニューラルヴォコーダである。
DisCoderは、いくつかの客観的メトリクスとMUSHRAリスニングスタディにおいて、音楽合成における最先端のパフォーマンスを達成する。
提案手法は,音声合成における競合性能も示し,普遍的なボコーダとしての可能性を強調した。
論文 参考訳(メタデータ) (2025-02-18T11:25:46Z) - Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。