論文の概要: SpidR-Adapt: A Universal Speech Representation Model for Few-Shot Adaptation
- arxiv url: http://arxiv.org/abs/2512.21204v1
- Date: Wed, 24 Dec 2025 14:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.799388
- Title: SpidR-Adapt: A Universal Speech Representation Model for Few-Shot Adaptation
- Title(参考訳): SpidR-Adapt:Few-Shot Adaptationのためのユニバーサル音声表現モデル
- Authors: Mahi Luthra, Jiayi Shen, Maxime Poli, Angelo Ortiz, Yosuke Higuchi, Youssef Benchekroun, Martin Gleize, Charles-Eric Saint-James, Dongyan Lin, Phillip Rust, Angel Villar, Surya Parimi, Vanessa Stark, Rashel Moritz, Juan Pino, Yann LeCun, Emmanuel Dupoux,
- Abstract要約: 最小限のラベル付きデータを用いた新しい言語への迅速な適応のためのSpedR-Adaptを提案する。
両レベル最適化フレームワークとして適応処理を定式化するマルチタスク適応型事前学習プロトコルを構築した。
経験的に、SpedR-Adaptは音韻識別性と音声言語モデリングの急速な進歩を実現している。
- 参考スコア(独自算出の注目度): 40.55805997909858
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human infants, with only a few hundred hours of speech exposure, acquire basic units of new languages, highlighting a striking efficiency gap compared to the data-hungry self-supervised speech models. To address this gap, this paper introduces SpidR-Adapt for rapid adaptation to new languages using minimal unlabeled data. We cast such low-resource speech representation learning as a meta-learning problem and construct a multi-task adaptive pre-training (MAdaPT) protocol which formulates the adaptation process as a bi-level optimization framework. To enable scalable meta-training under this framework, we propose a novel heuristic solution, first-order bi-level optimization (FOBLO), avoiding heavy computation costs. Finally, we stabilize meta-training by using a robust initialization through interleaved supervision which alternates self-supervised and supervised objectives. Empirically, SpidR-Adapt achieves rapid gains in phonemic discriminability (ABX) and spoken language modeling (sWUGGY, sBLIMP, tSC), improving over in-domain language models after training on less than 1h of target-language audio, over $100\times$ more data-efficient than standard training. These findings highlight a practical, architecture-agnostic path toward biologically inspired, data-efficient representations. We open-source the training code and model checkpoints at https://github.com/facebookresearch/spidr-adapt.
- Abstract(参考訳): ヒトの幼児は、数百時間しか音声を露出しないが、新しい言語の基本的な単位を取得し、データに飢えがちな自己教師型音声モデルと比較して、顕著な効率のギャップを浮き彫りにしている。
このギャップに対処するために、最小限のラベル付きデータを用いて新しい言語に迅速に適応するSpedR-Adaptを提案する。
このような低リソース音声表現学習をメタラーニング問題とし、適応処理を二段階最適化フレームワークとして定式化するマルチタスク適応事前学習(MAdaPT)プロトコルを構築した。
このフレームワークで拡張性のあるメタトレーニングを実現するため、計算コストの重いFOBLO(First-order bi-level optimization)という新しいヒューリスティックなソリューションを提案する。
最後に,自己指導と指導対象を交互に行うインターリーブド・インフォメーションによる堅牢な初期化を用いて,メタトレーニングを安定化する。
経験的に、SpedR-Adaptは音素識別可能性(ABX)と音声言語モデリング(sWUGGY, sBLIMP, tSC)の急速な向上を実現し、1h未満のターゲット言語オーディオでトレーニングした後のドメイン内言語モデルを改善する。
これらの知見は、生物学的にインスパイアされた、データ効率のよい表現への実践的で、アーキテクチャに依存しない道のりを浮き彫りにしている。
私たちはトレーニングコードとモデルチェックポイントをhttps://github.com/facebookresearch/spidr-adapt.comでオープンソース化しました。
関連論文リスト
- SpidR: Learning Fast and Stable Linguistic Units for Spoken Language Models Without Supervision [25.71776883846138]
SpidRは、高度にアクセス可能な音声情報で表現を効率的に学習する自己教師型音声表現モデルである。
自己蒸留とオンラインクラスタリングを組み合わせたマスク付き予測目標を用いて生波形を訓練する。
wav2vec 2.0, HuBERT, WavLM, DinoSRをダウンストリーム言語モデリングベンチマークで上回ります。
論文 参考訳(メタデータ) (2025-12-23T12:22:25Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification [19.893213508284813]
目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
論文 参考訳(メタデータ) (2023-12-12T14:58:08Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Unsupervised Subword Modeling Using Autoregressive Pretraining and
Cross-Lingual Phone-Aware Modeling [30.905849959257264]
この研究は、教師なしサブワードモデリング、すなわち言語のサブワード単位を区別できる特徴表現の学習に対処する。
提案手法では,自動回帰予測符号化(APC)をフロントエンドとして,DNN-BNFモデルをバックエンドとして,二段階ボトルネック(BNF)学習フレームワークを採用する。
Libri-lightとZeroSpeech 2017データベースの結果は、APCがフロントエンドの機能事前トレーニングに有効であることを示している。
論文 参考訳(メタデータ) (2020-07-25T19:41:41Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。