論文の概要: Discrete Audio Tokens: More Than a Survey!
- arxiv url: http://arxiv.org/abs/2506.10274v1
- Date: Thu, 12 Jun 2025 01:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.516637
- Title: Discrete Audio Tokens: More Than a Survey!
- Title(参考訳): 離散オーディオトークン:サーベイ以上のもの!
- Authors: Pooneh Mousavi, Gallil Maimon, Adel Moumen, Darius Petermann, Jiatong Shi, Haibin Wu, Haici Yang, Anastasia Kuznetsova, Artem Ploujnikov, Ricard Marxer, Bhuvana Ramabhadran, Benjamin Elizalde, Loren Lugosch, Jinyu Li, Cem Subakan, Phil Woodland, Minje Kim, Hung-yi Lee, Shinji Watanabe, Yossi Adi, Mirco Ravanelli,
- Abstract要約: 本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
- 参考スコア(独自算出の注目度): 107.69720675124255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete audio tokens are compact representations that aim to preserve perceptual quality, phonetic content, and speaker characteristics while enabling efficient storage and inference, as well as competitive performance across diverse downstream tasks.They provide a practical alternative to continuous features, enabling the integration of speech and audio into modern large language models (LLMs). As interest in token-based audio processing grows, various tokenization methods have emerged, and several surveys have reviewed the latest progress in the field. However, existing studies often focus on specific domains or tasks and lack a unified comparison across various benchmarks. This paper presents a systematic review and benchmark of discrete audio tokenizers, covering three domains: speech, music, and general audio. We propose a taxonomy of tokenization approaches based on encoder-decoder, quantization techniques, training paradigm, streamability, and application domains. We evaluate tokenizers on multiple benchmarks for reconstruction, downstream performance, and acoustic language modeling, and analyze trade-offs through controlled ablation studies. Our findings highlight key limitations, practical considerations, and open challenges, providing insight and guidance for future research in this rapidly evolving area. For more information, including our main results and tokenizer database, please refer to our website: https://poonehmousavi.github.io/dates-website/.
- Abstract(参考訳): 離散音声トークンは, 知覚品質, 音声内容, 話者特性の保存を目的としたコンパクトな表現であり, 効率的な記憶と推論を実現するとともに, 多様な下流タスク間での競合性能を実現し, 音声と音声を現代大言語モデル (LLM) に統合する実用的な代替手段を提供する。
トークンベースの音声処理への関心が高まるにつれて、様々なトークン化手法が出現し、いくつかの調査がこの分野の最新の進歩をレビューしている。
しかし、既存の研究はしばしば特定のドメインやタスクに焦点を合わせ、様々なベンチマークで統一された比較を欠いている。
本稿では,音声,音楽,一般音声の3分野を網羅した,離散型音声トークンの体系的レビューとベンチマークを行う。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
コントラクタを複数ベンチマークで評価し, 再構成, ダウンストリーム性能, 音響言語モデリングを行い, 制御アブレーションによるトレードオフ解析を行った。
この発見は、この急速に発展する領域における今後の研究の洞察と指針を提供するとともに、重要な限界、実践的考察、オープンな課題を浮き彫りにしている。
主な結果とトークン化データベースを含む詳細については、Webサイトを参照してください。
関連論文リスト
- Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - Summarizing Speech: A Comprehensive Survey [76.13011304983458]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。
本調査では,要約手法の質を評価する上で重要な,既存のデータセットと評価プロトコルについて検討する。
論文 参考訳(メタデータ) (2025-04-10T17:50:53Z) - Recent Advances in Discrete Speech Tokens: A Review [25.038527125935747]
離散的な音声トークンは、その離散的でコンパクトで簡潔な性質によって特徴づけられ、効率的な伝送と記憶に有利である。
現在の研究は、個別の音声トークンを音響トークンと意味トークンの2つの主要なクラスに分類し、それぞれがリッチな研究領域へと発展してきた。
本研究は,既存の分類学と最近の音声トークン化の革新を体系的に合成し,各パラダイムの長所と短所を批判的に検討し,トークンタイプ間での系統的比較を提示する。
論文 参考訳(メタデータ) (2025-02-10T14:08:25Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - How Should We Extract Discrete Audio Tokens from Self-Supervised Models? [15.03039528965825]
本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。
複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-15T20:43:07Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。