論文の概要: TASTE-Streaming: Towards Streamable Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
- arxiv url: http://arxiv.org/abs/2603.12350v1
- Date: Thu, 12 Mar 2026 18:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.710371
- Title: TASTE-Streaming: Towards Streamable Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
- Title(参考訳): TASTE-Streaming: 音声のストリーム化と埋め込みによる音声言語モデリング
- Authors: Liang-Hsuan Tseng, Hung-yi Lee,
- Abstract要約: テキスト音声による音声合成は、自然とインテリジェントな音声に基づく対話を指向する。
TASTEは音声トークンを生成し、テキストのトークンと長さを一致させる。
本稿ではリアルタイム利用に適したTASTEの拡張であるTASTE-Sを提案する。
- 参考スコア(独自算出の注目度): 52.519745466772825
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-speech joint spoken language modeling (SLM) aims at natural and intelligent speech-based interactions, but developing such a system may suffer from modality mismatch: speech unit sequences are much longer than text tokens. Prior work reduces this gap with text-aligned tokenization and embedding (TASTE), producing speech tokens that align in lengths with their textual counterparts. However, the dependence on an external ASR system and the use of a non-causal decoder limits streaming use. To address this limitation, we propose TASTE-S, a streamable extension of TASTE suitable for real-time usage. TASTE-S integrates a CTC-based ASR module into the encoder for instant dual-modality encoding. We also redesign the unit decoder to enable on-the-fly decoding. With joint training, we show that TASTE-S matches TASTE's performance while significantly reducing latency. Further investigations reveal that TASTE-S remains robust to transcriptions and enables long-form encoding and decoding.
- Abstract(参考訳): SLM(Text-Speech Joint Speech Language Modeling)は、自然言語とインテリジェントな音声に基づく対話を目標としているが、このようなシステムの開発は、モダリティのミスマッチに悩まされる可能性がある。
以前の作業では、テキスト整列トークン化と埋め込み(TASTE)とのギャップを減らし、テキスト整列トークンと長さ整列する音声トークンを生成する。
しかし、外部のASRシステムへの依存と非因果デコーダの使用はストリーミング使用を制限する。
この制限に対処するため,リアルタイム利用に適したTASTEの拡張であるTASTE-Sを提案する。
TASTE-Sは、CTCベースのASRモジュールをエンコーダに統合し、即時二重モード符号化を行う。
また、オンザフライデコードを可能にするために、ユニットデコーダを再設計します。
共同トレーニングでは,TASTE-SとTASTEの性能が一致し,レイテンシが著しく低下した。
さらなる調査により、TASTE-Sは転写に対して堅牢であり、長文のエンコーディングとデコードを可能にすることが判明した。
関連論文リスト
- Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization [27.32235541083431]
動的キャラクタアライズされた音声トケナイザであるDyCASTを紹介する。
DyCASTは、訓練中にトークンと文字レベルの言語単位を関連付けることを学ぶ。
また,不確かさを増大させることなく再現性を高める検索拡張復号機構を導入する。
論文 参考訳(メタデータ) (2026-01-30T16:58:40Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。