論文の概要: Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
- arxiv url: http://arxiv.org/abs/2601.23174v2
- Date: Wed, 04 Feb 2026 18:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.618202
- Title: Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
- Title(参考訳): 固定フレームを超えて:動的文字対応音声トークン化
- Authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli,
- Abstract要約: 動的キャラクタアライズされた音声トケナイザであるDyCASTを紹介する。
DyCASTは、訓練中にトークンと文字レベルの言語単位を関連付けることを学ぶ。
また,不確かさを増大させることなく再現性を高める検索拡張復号機構を導入する。
- 参考スコア(独自算出の注目度): 27.32235541083431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
- Abstract(参考訳): ニューラルオーディオコーデックは現代の会話音声技術の中核であり、連続した音声をLLMで処理できる離散トークンのシーケンスに変換する。
しかし、既存のコーデックは通常固定フレームレートで動作し、トークンを均一に割り当て、不要に長いシーケンスを生成する。
本研究では,DyCAST(Dynamic Character-Aligned Speech Tokenizer)を導入し,ソフト文字レベルのアライメントと明示的持続時間モデリングによる可変フレームレートのトークン化を実現する。
DyCASTは、トレーニング中にトークンと文字レベルの言語単位を関連付けることを学び、復号時にトークンの長さを直接制御するアライメントフリー推論をサポートする。
また,低フレームレートで音声合成品質を向上させるために,ビットレートを増大させることなく再現精度を向上させる検索拡張復号機構を導入する。
実験により、DyCASTは、固定フレームレートコーデックよりもかなり少ないトークンを使用しながら、競争力のある音声合成品質と下流性能を達成することが示された。
コードとチェックポイントはhttps://github.com/lucadellalib/dycast.comで公開される。
関連論文リスト
- READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - PSCodec: A Series of High-Fidelity Low-bitrate Neural Speech Codecs Leveraging Prompt Encoders [9.998721582869438]
PSCodecは、プロンプトエンコーダに基づく一連のニューラル音声コーデックである。
PSCodec-Base、PSCodec-DRL-ICT、PSCodec-CasANは低帯域幅で高性能な音声再構成を実現する。
論文 参考訳(メタデータ) (2024-04-03T13:00:08Z) - RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。