論文の概要: SpidR: Learning Fast and Stable Linguistic Units for Spoken Language Models Without Supervision
- arxiv url: http://arxiv.org/abs/2512.20308v1
- Date: Tue, 23 Dec 2025 12:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.865496
- Title: SpidR: Learning Fast and Stable Linguistic Units for Spoken Language Models Without Supervision
- Title(参考訳): SpidR: スーパービジョンのない音声言語モデルのための高速で安定した言語単位を学習する
- Authors: Maxime Poli, Mahi Luthra, Youssef Benchekroun, Yosuke Higuchi, Martin Gleize, Jiayi Shen, Robin Algayres, Yu-An Chung, Mido Assran, Juan Pino, Emmanuel Dupoux,
- Abstract要約: SpidRは、高度にアクセス可能な音声情報で表現を効率的に学習する自己教師型音声表現モデルである。
自己蒸留とオンラインクラスタリングを組み合わせたマスク付き予測目標を用いて生波形を訓練する。
wav2vec 2.0, HuBERT, WavLM, DinoSRをダウンストリーム言語モデリングベンチマークで上回ります。
- 参考スコア(独自算出の注目度): 25.71776883846138
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The parallel advances in language modeling and speech representation learning have raised the prospect of learning language directly from speech without textual intermediates. This requires extracting semantic representations directly from speech. Our contributions are threefold. First, we introduce SpidR, a self-supervised speech representation model that efficiently learns representations with highly accessible phonetic information, which makes it particularly suited for textless spoken language modeling. It is trained on raw waveforms using a masked prediction objective combined with self-distillation and online clustering. The intermediate layers of the student model learn to predict assignments derived from the teacher's intermediate layers. This learning objective stabilizes the online clustering procedure compared to previous approaches, resulting in higher quality codebooks. SpidR outperforms wav2vec 2.0, HuBERT, WavLM, and DinoSR on downstream language modeling benchmarks (sWUGGY, sBLIMP, tSC). Second, we systematically evaluate across models and layers the correlation between speech unit quality (ABX, PNMI) and language modeling performance, validating these metrics as reliable proxies. Finally, SpidR significantly reduces pretraining time compared to HuBERT, requiring only one day of pretraining on 16 GPUs, instead of a week. This speedup is enabled by the pretraining method and an efficient codebase, which allows faster iteration and easier experimentation. We open-source the training code and model checkpoints at https://github.com/facebookresearch/spidr.
- Abstract(参考訳): 言語モデリングと音声表現学習の並列的な進歩は、テキスト中間語なしで直接言語を学習する可能性を高めている。
これにより、音声から直接意味表現を抽出する必要がある。
私たちの貢献は3倍です。
まず,音声情報を用いた表現を効率よく学習する自己教師型音声表現モデルであるSpedRを紹介する。
自己蒸留とオンラインクラスタリングを組み合わせたマスク付き予測目標を用いて生波形を訓練する。
学生モデルの中間層は、教師の中間層に由来する課題を予測することを学習する。
この学習目的は,従来の手法に比べてオンラインクラスタリング処理を安定化させ,高品質なコードブックを実現する。
SpidRは、下流言語モデリングベンチマーク(sWUGGY, sBLIMP, tSC)でwav2vec 2.0, HuBERT, WavLM, DinoSRを上回っている。
第2に,音声単位品質 (ABX, PNMI) と言語モデリング性能 (Language Modeling Performance) の相関関係をモデルおよび層間で体系的に評価し,これらの指標を信頼性のあるプロキシとして検証する。
最後に、SpedRはHuBERTと比較して事前トレーニング時間を著しく短縮し、1週間ではなく16GPUで1日間の事前トレーニングしか必要としない。
このスピードアップは事前学習法と効率的なコードベースによって実現され、より高速なイテレーションとより簡単な実験が可能になる。
私たちはトレーニングコードとモデルチェックポイントをhttps://github.com/facebookresearch/spidr.comでオープンソース化しました。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。