論文の概要: Sylber 2.0: A Universal Syllable Embedding
- arxiv url: http://arxiv.org/abs/2601.22306v1
- Date: Thu, 29 Jan 2026 20:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.053638
- Title: Sylber 2.0: A Universal Syllable Embedding
- Title(参考訳): Sylber 2.0:Universal Syllable Embedding
- Authors: Cheol Jun Cho, Nicholas Lee, Alan W Black, Gopala K. Anumanchipalli,
- Abstract要約: Sylber 2.0は音節レベルで音声を符号化する自己教師型フレームワークである。
Sylber 2.0は5Hz程度の非常に低いトークン周波数を達成し、言語的および音響的詳細を保持できる。
実験では、高周波ベースラインで動作する以前のモデルと同等の性能を示す。
- 参考スコア(独自算出の注目度): 17.835120807367677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scaling spoken language modeling requires speech tokens that are both efficient and universal. Recent work has proposed syllables as promising speech tokens at low temporal resolution, but existing models are constrained to English and fail to capture sufficient acoustic detail. To address this gap, we present Sylber 2.0, a self-supervised framework for coding speech at the syllable level that enables efficient temporal compression and high-fidelity reconstruction. Sylber 2.0 achieves a very low token frequency around 5 Hz, while retaining both linguistic and acoustic detail across multiple languages and expressive styles. Experiments show that it performs on par with previous models operating on high-frequency baselines. Furthermore, Sylber 2.0 enables efficient TTS modeling which can generate speech with competitive intelligibility and quality with SOTA models using only 72M parameters. Moreover, the universality of Sylber 2.0 provides more effective features for low resource ASR than previous speech coding frameworks. In sum, we establish an effective syllable-level abstraction for general spoken language.
- Abstract(参考訳): 音声言語モデリングのスケーリングには、効率的かつ普遍的な音声トークンが必要である。
近年の研究では、低時間分解能での有望な音声トークンとして音節が提案されているが、既存のモデルは英語に制約されており、十分な音響的詳細を把握できない。
このギャップに対処するためにSylber 2.0を提案する。これは音節レベルで音声を符号化する自己教師型フレームワークで、効率的な時間的圧縮と高忠実度再構成を可能にする。
Sylber 2.0は5Hz程度で非常に低いトークン周波数を実現し、複数の言語と表現スタイルの言語的および音響的詳細を維持している。
実験では、高周波ベースラインで動作する以前のモデルと同等の性能を示す。
さらに、Sylber 2.0は、72Mパラメータのみを使用して、SOTAモデルと競合するインテリジェンスと品質を持つ音声を生成する効率的なTTSモデリングを可能にする。
さらに、Sylber 2.0の普遍性は、以前の音声コーディングフレームワークよりも、低リソースのASRに対してより効果的な機能を提供する。
要約すると、汎用言語のための効果的な音節レベルの抽象化を確立する。
関連論文リスト
- Scaling Spoken Language Models with Syllabic Speech Tokenization [17.835120807367677]
音声言語モデル(SLM)は通常、SSL音声モデルから抽出された高フレームレートトークンに音声認識を行う。
近年のSSL研究は音節レベルでの音声の音響的トークン化を導入している。
Syllabicトークンは、トレーニングと推論コストを大幅に削減しながら、以前の高フレームレートトークンにマッチまたは超過することができる。
論文 参考訳(メタデータ) (2025-09-30T17:59:09Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。