論文の概要: Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine
- arxiv url: http://arxiv.org/abs/2507.12701v1
- Date: Thu, 17 Jul 2025 00:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.308108
- Title: Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine
- Title(参考訳): 機械のためのタスク特化オーディオ符号化:機械学習潜在機能は、その機械のためのコードである
- Authors: Anastasia Kuznetsova, Inseon Jang, Wootaek Lim, Minje Kim,
- Abstract要約: 本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。
提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
- 参考スコア(独自算出の注目度): 16.046905753937384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs, leveraging quantization algorithms, have significantly impacted various speech/audio tasks. While high-fidelity reconstruction is paramount for human perception, audio coding for machines (ACoM) prioritizes efficient compression and downstream task performance, disregarding perceptual nuances. This work introduces an efficient ACoM method that can compress and quantize any chosen intermediate feature representation of an already trained speech/audio downstream model. Our approach employs task-specific loss guidance alongside residual vector quantization (RVQ) losses, providing ultra-low bitrates (i.e., less than 200 bps) with a minimal loss of the downstream model performance. The resulting tokenizer is adaptable to various bitrates and model sizes for flexible deployment. Evaluated on automatic speech recognition and audio classification, our method demonstrates its efficacy and potential for broader task and architectural applicability through appropriate regularization.
- Abstract(参考訳): 量子化アルゴリズムを利用するニューラルオーディオコーデックは、様々な音声/音声タスクに大きな影響を与えている。
高忠実度再構成は人間の知覚にとって最重要であるが、機械の音声符号化(ACoM)は知覚のニュアンスを無視して、効率的な圧縮と下流タスクのパフォーマンスを優先する。
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。
提案手法では,残差ベクトル量子化(RVQ)の損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能の損失を最小限に抑えた超低ビットレート(200bps未満)を提供する。
結果として生じるトークンライザは、柔軟なデプロイメントのために、さまざまなビットレートやモデルサイズに適応できます。
本手法は,音声認識と音声の自動分類に基づいて,適切な正規化によるタスクやアーキテクチャの適用性の向上と可能性を示す。
関連論文リスト
- Learning to Upsample and Upmix Audio in the Latent Domain [13.82572699087732]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - Variable Bitrate Residual Vector Quantization for Audio Coding [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。