論文の概要: Exploring Token-Space Manipulation in Latent Audio Tokenizers
- arxiv url: http://arxiv.org/abs/2605.11192v1
- Date: Mon, 11 May 2026 19:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.397108
- Title: Exploring Token-Space Manipulation in Latent Audio Tokenizers
- Title(参考訳): ラテントオーディオ・トケナイザにおけるトケイン空間操作の探索
- Authors: Francesco Paissan, Luca Della Libera, Mirco Ravanelli, Cem Subakan,
- Abstract要約: token-space Editing (LATTE) のための遅延オーディオトケナイザを提案する。
LATTEは学習可能な潜在トークンの固定セットをオーディオ特徴シーケンスに追加し、量子化と復号化のためにこれらのトークンのみを保持する。
提案手法は,低ビットレート音声符号化設定における競合的再構成品質を保っていることを示す。
- 参考スコア(独自算出の注目度): 33.022035588157614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs provide compact discrete representations for speech generation and manipulation. However, most codecs organize tokens as frame-level sequences, making it difficult to study or intervene on global factors of variation. In this work, we propose the Latent Audio Tokenizer for Token-space Editing (LATTE) that appends a fixed set of learnable latent tokens to the audio feature sequence and retains only these tokens for quantization and decoding. This design produces a compact, non-temporally aligned bottleneck in which each token can aggregate global information across the full utterance. We show that the resulting tokenizer preserves competitive reconstruction quality in low-bitrate speech coding settings while enabling simple token-space interventions. In particular, we find that swapping selected latent token positions between utterances can modify global attributes, such as speaker identity and background noise, and we evaluate these interventions on voice conversion and denoising tasks. Our results suggest that compact latent audio tokenizers can support controllable audio manipulation without supervision in task-specific editing models.
- Abstract(参考訳): ニューラルオーディオコーデックは、音声生成と操作のためのコンパクトな離散表現を提供する。
しかし、ほとんどのコーデックはトークンをフレームレベルのシーケンスとして整理し、グローバルな変動要因の研究や介入を困難にしている。
本研究では,音声特徴系列に学習可能な遅延トークンの固定セットを付加し,量子化と復号化のためのトークンのみを保持するLATTE(Latent Audio Tokenizer for Token-space Editing)を提案する。
この設計は、各トークンが全発話にわたってグローバル情報を集約できるコンパクトで非時間的に整合したボトルネックを生成する。
提案手法は,低ビットレート音声符号化設定における競合的再構成品質を保ちつつ,簡単なトークン空間介入を可能にする。
特に,発話間で選択した潜在トークンの位置を交換することで,話者識別や背景雑音などのグローバル属性を変更できることが判明し,音声変換やデノナイズタスクに対するこれらの介入を評価する。
提案手法は,タスク固有の編集モデルに係わることなく,制御可能な音声操作をサポートできることを示唆する。
関連論文リスト
- PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization [8.126475706520063]
PairAlignは、シーケンスレベルの自己アライメントによるコンパクトなオーディオトークン化のためのフレームワークである。
広義の語彙を用いたコンパクトで非退化配列を学習する。
編集距離検索を保存し、アーカイブトークン数を55%削減する。
論文 参考訳(メタデータ) (2026-05-07T17:11:22Z) - Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization [27.32235541083431]
動的キャラクタアライズされた音声トケナイザであるDyCASTを紹介する。
DyCASTは、訓練中にトークンと文字レベルの言語単位を関連付けることを学ぶ。
また,不確かさを増大させることなく再現性を高める検索拡張復号機構を導入する。
論文 参考訳(メタデータ) (2026-01-30T16:58:40Z) - AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation [16.047087043580053]
MLLM(Multimodal Large Language Models)は、音声や音楽に広く応用されている。
意味のみのテキストトークンとは異なり、音声トークンはグローバルな意味的コンテンツをキャプチャし、きめ細かい音響的詳細を保存する必要がある。
本稿では,意味的および音響的トークンの適切な定義を提供し,体系的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T14:15:22Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - How Should We Extract Discrete Audio Tokens from Self-Supervised Models? [15.03039528965825]
本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。
複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-15T20:43:07Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。