論文の概要: Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization
- arxiv url: http://arxiv.org/abs/2509.15579v1
- Date: Fri, 19 Sep 2025 04:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.994922
- Title: Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization
- Title(参考訳): 高分解能有限スカラー量子化を用いたチャンク音声事前学習
- Authors: Yun Tang, Cindy Tseng,
- Abstract要約: 本稿では,ストリーミングとオフライン両方の事前学習のための統合ソリューションとして,チャンクベースの自己教師型学習(Chunk SSL)アルゴリズムを提案する。
チャンクSSLはマスク付き予測損失に最適化され、音響エンコーダはそれらのマスク付き音声フレームのインデックスを復元するよう推奨される。
scLibri と textscMust-C データセットによる実験結果から,提案手法は,ストリーミングモードとオフラインモードの両方において,音声からテキストへのタスクに対して非常に競争力のある結果が得られることが示された。
- 参考スコア(独自算出の注目度): 3.7046278530385894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low latency speech human-machine communication is becoming increasingly necessary as speech technology advances quickly in the last decade. One of the primary factors behind the advancement of speech technology is self-supervised learning. Most self-supervised learning algorithms are designed with full utterance assumption and compromises have to made if partial utterances are presented, which are common in the streaming applications. In this work, we propose a chunk based self-supervised learning (Chunk SSL) algorithm as an unified solution for both streaming and offline speech pre-training. Chunk SSL is optimized with the masked prediction loss and an acoustic encoder is encouraged to restore indices of those masked speech frames with help from unmasked frames in the same chunk and preceding chunks. A copy and append data augmentation approach is proposed to conduct efficient chunk based pre-training. Chunk SSL utilizes a finite scalar quantization (FSQ) module to discretize input speech features and our study shows a high resolution FSQ codebook, i.e., a codebook with vocabulary size up to a few millions, is beneficial to transfer knowledge from the pre-training task to the downstream tasks. A group masked prediction loss is employed during pre-training to alleviate the high memory and computation cost introduced by the large codebook. The proposed approach is examined in two speech to text tasks, i.e., speech recognition and speech translation. Experimental results on the \textsc{Librispeech} and \textsc{Must-C} datasets show that the proposed method could achieve very competitive results for speech to text tasks at both streaming and offline modes.
- Abstract(参考訳): 過去10年間で音声技術が急速に進歩するにつれて、低レイテンシの音声と機械のコミュニケーションがますます必要になってきている。
音声技術の進歩の背景にある主要な要因の1つは、自己教師型学習である。
ほとんどの自己教師付き学習アルゴリズムは完全な発話仮定で設計されており、ストリーミングアプリケーションで一般的な部分発話が提示された場合、妥協しなければならない。
本研究では,ストリーミングとオフライン両方の事前学習のための統合ソリューションとして,チャンクベースの自己教師付き学習(Chunk SSL)アルゴリズムを提案する。
チャンクSSLは、マスク付き予測損失に最適化され、音響エンコーダは、マスク付き音声フレームのインデックスを、同じチャンクと前のチャンクのアンマスクフレームの助けを借りて復元することを推奨する。
効率的なチャンクベース事前学習を行うために,コピー・アンド・アタッチメント・データ拡張手法を提案する。
チャンクSSLは、有限スカラー量子化(FSQ)モジュールを用いて入力音声特徴を識別し、高い解像度のFSQコードブック(最大数百万の語彙を持つコードブック)を示す。
グループマスク付き予測損失は、事前トレーニング中に、大きなコードブックによって導入された高メモリと計算コストを軽減するために使用される。
提案手法は,音声認識と音声翻訳の2つのタスクにおいて検討される。
提案手法は, ストリーミングモードとオフラインモードの両方において, 音声からテキストまでのタスクに対して, 非常に競争力のある結果が得られることを示す。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。
我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。
TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文 参考訳(メタデータ) (2025-06-01T09:27:55Z) - OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。
提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。
実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T07:31:55Z) - InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。