Fugu-MT 論文翻訳(概要): Towards Audio Codec-based Speech Separation

論文の概要: Towards Audio Codec-based Speech Separation

arxiv url: http://arxiv.org/abs/2406.12434v1
Date: Tue, 18 Jun 2024 09:29:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 19:37:07.983683
Title: Towards Audio Codec-based Speech Separation
Title（参考訳）: 音声コーデックに基づく音声分離に向けて
Authors: Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma,
Abstract要約: 音声分離は波形マスキングタスクである。そこで我々は,NAC の埋め込み空間内で SS を行う,Audio Codec ベースの SS の新たなタスクを提案する。推論では、CodecformerはMACの52倍の削減を実現し、Sepformerのクラウドデプロイメントに匹敵する分離性能を実現している。
参考スコア（独自算出の注目度）: 24.80078830607848
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent improvements in neural audio codec (NAC) models have generated interest in adopting pre-trained codecs for a variety of speech processing applications to take advantage of the efficiencies gained from high compression, but these have yet been applied to the speech separation (SS) task. SS can benefit from high compression because the compute required for traditional SS models makes them impractical for many edge computing use cases. However, SS is a waveform-masking task where compression tends to introduce distortions that severely impact performance. Here we propose a novel task of Audio Codec-based SS, where SS is performed within the embedding space of a NAC, and propose a new model, Codecformer, to address this task. At inference, Codecformer achieves a 52x reduction in MAC while producing separation performance comparable to a cloud deployment of Sepformer. This method charts a new direction for performing efficient SS in practical scenarios.
Abstract（参考訳）: ニューラルオーディオコーデック(NAC)モデルの最近の改良は、様々な音声処理アプリケーションに事前訓練されたコーデックを採用することに関心を惹き付け、高い圧縮から得られる効率を生かしたが、これらはまだ音声分離(SS)タスクには適用されていない。従来のSSモデルに必要な計算処理は、エッジコンピューティングのユースケースの多くにおいて実用的ではないため、SSは高い圧縮の恩恵を受けることができる。しかし、SSは、圧縮がパフォーマンスに深刻な影響を与える歪みをもたらす傾向にある波形マスキングタスクである。本稿では,NACの埋め込み空間内でSSが実行されるAudio CodecベースのSSの新しいタスクを提案し,その課題に対処する新しいモデルであるCodecformerを提案する。推論では、CodecformerはMACの52倍の削減を実現し、Sepformerのクラウドデプロイメントに匹敵する分離性能を実現している。本手法は,実運用シナリオにおいて効率的なSSを実現するための新たな方向性を示す。

関連論文リスト

HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。 HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-25T02:44:30Z)
Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine [16.046905753937384]
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
論文参考訳（メタデータ） (2025-07-17T00:32:07Z)
Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文参考訳（メタデータ） (2025-03-27T13:01:53Z)
PCGS: Progressive Compression of 3D Gaussian Splatting [55.149325473447384]
ガウスの量と品質を適応的に制御するPCGS(Progressive Compression of 3D Gaussian Splatting)を提案する。全体として、PCGSは、SoTA非プログレッシブ手法に匹敵する圧縮性能を維持しながら、進行性を達成する。
論文参考訳（メタデータ） (2025-03-11T15:01:11Z)
Speech Enhancement Using Continuous Embeddings of Neural Audio Codec [27.93548441414568]
ニューラルオーディオコーデック(NAC)モデルの最近の進歩は、音声強調(SE)を含む様々な音声処理タスクでの使用にインスピレーションを与えている。本研究では,事前学習されたNACエンコーダの事前量子化出力を活用することで,新しい効率的なSE手法を提案する。本手法は3.94 の低 GMAC を実現し,シミュレーションクラウドベースの音声伝送環境において,Sepformer と比較して18 倍の複雑性を実現する。
論文参考訳（メタデータ） (2025-02-22T14:25:55Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。 FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文参考訳（メタデータ） (2024-10-10T15:13:08Z)
VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されているこれらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文参考訳（メタデータ） (2024-10-08T13:18:24Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
PSCodec: A Series of High-Fidelity Low-bitrate Neural Speech Codecs Leveraging Prompt Encoders [9.998721582869438]
PSCodecは、プロンプトエンコーダに基づく一連のニューラル音声コーデックである。 PSCodec-Base、PSCodec-DRL-ICT、PSCodec-CasANは低帯域幅で高性能な音声再構成を実現する。
論文参考訳（メタデータ） (2024-04-03T13:00:08Z)
Sandwiched Video Compression: Efficiently Extending the Reach of Standard Codecs with Neural Wrappers [11.968545394054816]
本稿では,標準的なビデオにニューラルネットワークをラップするビデオ圧縮システムを提案する。ネットワークは、速度歪み損失関数を最適化するために共同で訓練される。 HEVCと同等品質で30%の改善が見られた。
論文参考訳（メタデータ） (2023-03-20T22:03:44Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。 SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文参考訳（メタデータ） (2022-10-03T14:00:41Z)
Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-06-09T12:45:29Z)
MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。 MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文参考訳（メタデータ） (2022-03-30T22:06:13Z)
Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文参考訳（メタデータ） (2022-01-27T20:20:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。