Fugu-MT 論文翻訳(概要): Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

論文の概要: Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

arxiv url: http://arxiv.org/abs/2601.23174v2
Date: Wed, 04 Feb 2026 18:42:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-05 15:07:33.618202
Title: Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
Title（参考訳）: 固定フレームを超えて:動的文字対応音声トークン化
Authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli,
Abstract要約: 動的キャラクタアライズされた音声トケナイザであるDyCASTを紹介する。 DyCASTは、訓練中にトークンと文字レベルの言語単位を関連付けることを学ぶ。また,不確かさを増大させることなく再現性を高める検索拡張復号機構を導入する。
参考スコア（独自算出の注目度）: 27.32235541083431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
Abstract（参考訳）: ニューラルオーディオコーデックは現代の会話音声技術の中核であり、連続した音声をLLMで処理できる離散トークンのシーケンスに変換する。しかし、既存のコーデックは通常固定フレームレートで動作し、トークンを均一に割り当て、不要に長いシーケンスを生成する。本研究では,DyCAST(Dynamic Character-Aligned Speech Tokenizer)を導入し,ソフト文字レベルのアライメントと明示的持続時間モデリングによる可変フレームレートのトークン化を実現する。 DyCASTは、トレーニング中にトークンと文字レベルの言語単位を関連付けることを学び、復号時にトークンの長さを直接制御するアライメントフリー推論をサポートする。また,低フレームレートで音声合成品質を向上させるために,ビットレートを増大させることなく再現精度を向上させる検索拡張復号機構を導入する。実験により、DyCASTは、固定フレームレートコーデックよりもかなり少ないトークンを使用しながら、競争力のある音声合成品質と下流性能を達成することが示された。コードとチェックポイントはhttps://github.com/lucadellalib/dycast.comで公開される。

関連論文リスト

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文参考訳（メタデータ） (2026-02-13T18:57:31Z)
NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference [19.201753265782685]
大規模言語モデル(LLM)は、音声コーデックを利用して音声をトークンに識別することで、かなり高度なオーディオ処理を行う。既存のオーディオコーデックは高いフレームレートで動作し、特に自己回帰モデルにおいてトレーニングと推論が遅くなる。我々は,12.5フレーム/秒(FPS)で高品質な圧縮を実現する,最先端オーディオであるNanoCodecを紹介する。
論文参考訳（メタデータ） (2025-08-07T20:20:32Z)
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-05T13:57:03Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate [14.03590336780589]
本稿では,ニューラル音声コーデックに可変フレームレート(VFR)を初めて導入する,TFC(Temporally Flexible Coding)手法を提案する。 TFCはフレームレートをシームレスに平均化し、時間エントロピーに基づいてフレームレートを動的に割り当てる。実験結果から,TFCを用いた神経再建は高い柔軟性で最適品質を達成し,低フレームレートでも競争性能を維持することが示された。
論文参考訳（メタデータ） (2025-05-22T16:10:01Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [33.022035588157614]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプルとコードはhttps://lucadellalib.io/kbpscodec-web/.comで公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。 X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T10:24:07Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
PSCodec: A Series of High-Fidelity Low-bitrate Neural Speech Codecs Leveraging Prompt Encoders [9.998721582869438]
PSCodecは、プロンプトエンコーダに基づく一連のニューラル音声コーデックである。 PSCodec-Base、PSCodec-DRL-ICT、PSCodec-CasANは低帯域幅で高性能な音声再構成を実現する。
論文参考訳（メタデータ） (2024-04-03T13:00:08Z)
RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。 RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-31T23:26:10Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。