論文の概要: Neural Audio Codecs for Prompt-Driven Universal Source Separation
- arxiv url: http://arxiv.org/abs/2509.11717v1
- Date: Mon, 15 Sep 2025 09:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.213154
- Title: Neural Audio Codecs for Prompt-Driven Universal Source Separation
- Title(参考訳): プロンプト駆動型ユニバーサル音源分離のためのニューラルオーディオコーデック
- Authors: Adhiraj Banerjee, Vipul Arora,
- Abstract要約: デバイス上でのユニバーサルなテキスト駆動分離のための最初のNACベースモデルであるCodecSepを紹介する。
CodecSepは、DAC圧縮とCLAP由来のFiLMパラメータによって変調されたトランスフォーマーマスクを組み合わせる。
- 参考スコア(独自算出の注目度): 8.126475706520063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided source separation supports flexible audio editing across media and assistive applications, but existing models like AudioSep are too compute-heavy for edge deployment. Neural audio codec (NAC) models such as CodecFormer and SDCodec are compute-efficient but limited to fixed-class separation. We introduce CodecSep, the first NAC-based model for on-device universal, text-driven separation. CodecSep combines DAC compression with a Transformer masker modulated by CLAP-derived FiLM parameters. Across six open-domain benchmarks under matched training/prompt protocols, \textbf{CodecSep} surpasses \textbf{AudioSep} in separation fidelity (SI-SDR) while remaining competitive in perceptual quality (ViSQOL) and matching or exceeding fixed-stem baselines (TDANet, CodecFormer, SDCodec). In code-stream deployments, it needs just 1.35~GMACs end-to-end -- approximately $54\times$ less compute ($25\times$ architecture-only) than spectrogram-domain separators like AudioSep -- while remaining fully bitstream-compatible.
- Abstract(参考訳): テキスト誘導ソース分離は、メディアおよびアシストアプリケーション間で柔軟なオーディオ編集をサポートするが、AudioSepのような既存のモデルは、エッジデプロイメントには計算量が多い。
CodecFormerやSDCodecのようなニューラルオーディオコーデック(NAC)モデルは計算効率が高いが、固定クラスの分離に限られる。
デバイス上でのユニバーサルなテキスト駆動分離のための最初のNACベースモデルであるCodecSepを紹介する。
CodecSepは、DAC圧縮とCLAP由来のFiLMパラメータによって変調されたトランスフォーマーマスクを組み合わせる。
マッチしたトレーニング/プロンプトプロトコルの下での6つのオープンドメインベンチマークで、 \textbf{CodecSep} は分離忠実度 (SI-SDR) で \textbf{AudioSep} を上回り、知覚品質 (ViSQOL) と整合性ベースライン (TDANet, CodecFormer, SDCodec) で競争力を維持する。
コードストリームデプロイメントでは、AudioSepのようなスペクトログラムドメインセパレータよりも、わずか1.35~GMACsのエンドツーエンド -- 約5,4\times$少ない計算(25\times$アーキテクチャのみ)が必要ですが、完全なビットストリーム互換は保っています。
関連論文リスト
- CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文 参考訳(メタデータ) (2025-09-11T20:31:18Z) - Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates [1.445167946386569]
我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
論文 参考訳(メタデータ) (2025-09-11T15:39:59Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。
本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。
また,SemantiCodecは,評価されたすべての最先端オーディオコーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文 参考訳(メタデータ) (2024-04-30T22:51:36Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。