論文の概要: Baseline Systems For The 2025 Low-Resource Audio Codec Challenge
- arxiv url: http://arxiv.org/abs/2510.00264v3
- Date: Tue, 07 Oct 2025 20:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 12:02:36.775698
- Title: Baseline Systems For The 2025 Low-Resource Audio Codec Challenge
- Title(参考訳): 2025年の低リソースオーディオコーデックチャレンジのためのベースラインシステム
- Authors: Yusuf Ziya Isik, Rafał Łaganowski,
- Abstract要約: Low-Resource Audio Codec (LRAC) Challengeは、リソース制約のある環境でのデプロイメントのためのニューラルオーディオコーディングの進歩を目的としている。
本稿では,2025年のLRACチャレンジにおいて,両トラックの公式ベースラインシステムについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Low-Resource Audio Codec (LRAC) Challenge aims to advance neural audio coding for deployment in resource-constrained environments. The first edition focuses on low-resource neural speech codecs that must operate reliably under everyday noise and reverberation, while satisfying strict constraints on computational complexity, latency, and bitrate. Track 1 targets transparency codecs, which aim to preserve the perceptual transparency of input speech under mild noise and reverberation. Track 2 addresses enhancement codecs, which combine coding and compression with denoising and dereverberation. This paper presents the official baseline systems for both tracks in the 2025 LRAC Challenge. The baselines are convolutional neural codec models with Residual Vector Quantization, trained end-to-end using a combination of adversarial and reconstruction objectives. We detail the data filtering and augmentation strategies, model architectures, optimization procedures, and checkpoint selection criteria.
- Abstract(参考訳): Low-Resource Audio Codec (LRAC) Challengeは、リソース制約のある環境でのデプロイメントのためのニューラルオーディオコーディングの進歩を目的としている。
第1版では、計算複雑性、レイテンシ、ビットレートに関する厳格な制約を満たしつつ、日々のノイズや残響の下で確実に動作しなければならない低リソースのニューラル音声コーデックに焦点を当てている。
トラック1は、軽音と残響の下で入力音声の知覚的透明性を維持することを目的とした透明コーデックをターゲットにしている。
トラック2は、符号化と圧縮をデノベーションとデノベーションとデノベーションを組み合わせたエンハンスメントコーデックに対処する。
本稿では,2025年のLRACチャレンジにおいて,両トラックの公式ベースラインシステムについて述べる。
ベースラインは、Residual Vector Quantizationを備えた畳み込みニューラルコーデックモデルであり、敵と再構築の目的を組み合わせたエンドツーエンドで訓練されている。
データフィルタリングと拡張戦略、モデルアーキテクチャ、最適化手順、チェックポイント選択基準について詳述する。
関連論文リスト
- HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Task and Perception-aware Distributed Source Coding for Correlated Speech under Bandwidth-constrained Channels [3.674863913115431]
AR/VRアプリケーションは、信頼できない帯域幅制限のチャネル上で複数のリソース制約されたデバイスから相関した高忠実度音声をリアルタイムに伝送する必要がある。
既存のオートエンコーダベースの音声源符号化法では,以下の組み合わせに対処できない。
中央受信機に送信される相関音声源に対して,ニューラル分散主成分分析(NDPCA)を用いた分散音源符号化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-20T04:57:29Z) - PNVC: Towards Practical INR-based Video Compression [14.088444622391501]
自動エンコーダと過度に適合したソリューションを革新的に組み合わせた新しいINRベースのコーディングフレームワークであるPNVCを提案する。
PNVCはHEVC HM 18.0(LD)に対して35%以上のBDレートの節約を実現している。
論文 参考訳(メタデータ) (2024-09-02T05:31:11Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。