Fugu-MT 論文翻訳(概要): CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

論文の概要: CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

arxiv url: http://arxiv.org/abs/2606.04418v1
Date: Wed, 03 Jun 2026 03:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.525861
Title: CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding
Title（参考訳）: CleanCodec: 知覚誘導符号化による効率的かつロバストな音声トークン化
Authors: Eugene Kwek, Feng Liu, Rui Zhang, Wenpeng Yin,
Abstract要約: CleanCodecは、知覚上重要な機能のみをエンコードし、認識不能な情報を破棄することを学ぶ。毎秒わずか12.5トークンで、CleanCodecは最先端のトークン化効率を達成する。
参考スコア（独自算出の注目度）: 15.228841447073668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural audio codecs are a key component of speech processing pipelines, compressing audio into discrete tokens for downstream modeling. However, existing codecs struggle to balance reconstruction quality with token efficiency, often encoding perceptually irrelevant information such as background noise and recording artifacts at the expense of linguistically and acoustically meaningful content. We reframe audio tokenization as a selective information bottleneck problem and propose CleanCodec, a denoising audio codec which learns to encode only perceptually important features and discard imperceptible information. At just 12.5 tokens per second, CleanCodec achieves state-of-the-art tokenization efficiency, substantially outperforming existing codecs in speaker similarity and speech intelligibility. Evaluations on downstream text-to-speech and voice conversion tasks further demonstrate improved performance and up to 17x faster inference, highlighting significant efficiency gains.
Abstract（参考訳）: ニューラルオーディオコーデックは、音声処理パイプラインの重要なコンポーネントであり、下流モデリングのための離散トークンに音声を圧縮する。しかし、既存のコーデックは再建品質とトークン効率のバランスをとるのに苦労し、しばしば言語的、音響的に意味のあるコンテンツを犠牲にして、背景雑音や録音アーティファクトなどの知覚的に無関係な情報を符号化する。音声トークン化を選択的情報ボトルネック問題として再編成し,知覚上重要な特徴のみを符号化し,認識不能な情報を排除した音声コーデックであるCleanCodecを提案する。わずか12.5トークン/秒で、CleanCodecは最先端のトークン化効率を達成し、スピーカーの類似性と音声のインテリジェンスにおいて既存のコーデックを大幅に上回っている。下流のテキスト音声変換および音声変換タスクの評価により、パフォーマンスがさらに向上し、推論が最大17倍速くなり、大幅な効率向上が示された。

関連論文リスト

MOSS-Audio Technical Report [79.99038866101354]
MOSS-Audioは、音声、環境音、音楽理解のための統一された音声言語モデルである。音声キャプション、タイムアウェアな質問応答、タイムスタンプによる書き起こし、音声による推論をサポートする。
論文参考訳（メタデータ） (2026-06-01T07:19:22Z)
AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。 AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-05-14T00:56:51Z)
NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference [19.201753265782685]
大規模言語モデル(LLM)は、音声コーデックを利用して音声をトークンに識別することで、かなり高度なオーディオ処理を行う。既存のオーディオコーデックは高いフレームレートで動作し、特に自己回帰モデルにおいてトレーニングと推論が遅くなる。我々は,12.5フレーム/秒(FPS)で高品質な圧縮を実現する,最先端オーディオであるNanoCodecを紹介する。
論文参考訳（メタデータ） (2025-08-07T20:20:32Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [33.022035588157614]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプルとコードはhttps://lucadellalib.io/kbpscodec-web/.comで公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。また,SemantiCodecは,評価されたすべての最先端オーディオコーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文参考訳（メタデータ） (2024-04-30T22:51:36Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。