論文の概要: AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation
- arxiv url: http://arxiv.org/abs/2509.02349v2
- Date: Thu, 04 Sep 2025 14:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 11:58:39.465145
- Title: AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation
- Title(参考訳): AudioCodecBench: オーディオコーデック評価のための総合ベンチマーク
- Authors: Lu Wang, Hao Chen, Siyu Wu, Zhiyue Wu, Hao Zhou, Chengfeng Zhang, Ting Wang, Haodi Zhang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、音声や音楽に広く応用されている。
意味のみのテキストトークンとは異なり、音声トークンはグローバルな意味的コンテンツをキャプチャし、きめ細かい音響的詳細を保存する必要がある。
本稿では,意味的および音響的トークンの適切な定義を提供し,体系的な評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.047087043580053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have been widely applied in speech and music. This tendency has led to a focus on audio tokenization for Large Models (LMs). Unlike semantic-only text tokens, audio tokens must both capture global semantic content and preserve fine-grained acoustic details. Moreover, they provide a discrete method for speech and music that can be effectively integrated into MLLMs. However, existing research is unsuitable in the definitions of semantic tokens and acoustic tokens. In addition, the evaluation of different codecs typically concentrates on specific domains or tasks, such as reconstruction or Automatic Speech Recognition (ASR) task, which prevents fair and comprehensive comparisons. To address these problems, this paper provides suitable definitions for semantic and acoustic tokens and introduces a systematic evaluation framework. This framework allows for a comprehensive assessment of codecs' capabilities which evaluate across four dimensions: audio reconstruction metric, codebook index (ID) stability, decoder-only transformer perplexity, and performance on downstream probe tasks. Our results show the correctness of the provided suitable definitions and the correlation among reconstruction metrics, codebook ID stability, downstream probe tasks and perplexity.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、音声や音楽に広く応用されている。
この傾向は、Large Models (LM) の音声トークン化に焦点が当てられている。
意味のみのテキストトークンとは異なり、音声トークンはグローバルな意味的コンテンツをキャプチャし、きめ細かい音響的詳細を保存する必要がある。
さらに、MLLMに効果的に統合可能な、音声と音楽の離散的な方法を提供する。
しかし、既存の研究は意味的トークンと音響的トークンの定義には適していない。
さらに、異なるコーデックの評価は、通常、再構成や自動音声認識(ASR)タスクのような特定のドメインやタスクに集中し、公正で包括的な比較を防止する。
これらの問題に対処するために,本論文では意味的および音響的トークンの適切な定義を提供し,体系的な評価枠組みを提案する。
このフレームワークは、オーディオ再構成メトリック、コードブックインデックス(ID)安定性、デコーダのみのトランスフォーマーパープレキシティ、下流プローブタスクのパフォーマンスの4つの次元で評価されるコーデックの機能の総合的な評価を可能にする。
本研究は,提案する適切な定義の正しさと,再現度,コードブックIDの安定性,下流プローブタスク,パープレキシティの相関性を示す。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Discrete Audio Tokens: More Than a Survey! [107.69720675124255]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - How Should We Extract Discrete Audio Tokens from Self-Supervised Models? [15.03039528965825]
本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。
複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-15T20:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。