論文の概要: Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures
- arxiv url: http://arxiv.org/abs/2602.09040v1
- Date: Fri, 30 Jan 2026 20:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.706751
- Title: Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures
- Title(参考訳): 共同埋め込み予測アーキテクチャにおける自己教師付き音声表現学習のためのソフトクラスタリングアンカー
- Authors: Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv,
- Abstract要約: JEPA(Joint Embedding Predictive Architectures)は、自己教師型音声表現学習において有望なアプローチを提供するが、明示的な根拠なしに表現の崩壊に悩まされる。
本稿では,GMM-Anchored JEPAを提案する。GMM-Anchored JEPAはガウス混合モデルの対数メル分光法に一度適合し,凍結した軟体後部をトレーニングを通して補助目標とする。
50k時間音声では、GMMアンカーがASR(28.68% vs. 33.22% WER)、感情認識(67.76% vs. 65.46%)、スロットフィリング(64.7% vs. 59.1% F1)を改善している。
- 参考スコア(独自算出の注目度): 45.74430728311433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint Embedding Predictive Architectures (JEPA) offer a promising approach to self-supervised speech representation learning, but suffer from representation collapse without explicit grounding. We propose GMM-Anchored JEPA, which fits a Gaussian Mixture Model once on log-mel spectrograms and uses its frozen soft posteriors as auxiliary targets throughout training. A decaying supervision schedule allows GMM regularization to dominate early training before gradually yielding to the JEPA objective. Unlike HuBERT and WavLM, which require iterative re-clustering, our approach clusters input features once with soft rather than hard assignments. On ~50k hours of speech, GMM anchoring improves ASR (28.68% vs. 33.22% WER), emotion recognition (67.76% vs. 65.46%), and slot filling (64.7% vs. 59.1% F1) compared to a WavLM-style baseline with matched compute. Cluster analysis shows GMM-anchored representations achieve up to 98% entropy compared to 31% for WavLM-style, indicating substantially more uniform cluster utilization. Code is made available at https://github.com/gioannides/clustering-anchored-jepa.
- Abstract(参考訳): JEPA(Joint Embedding Predictive Architectures)は、自己教師型音声表現学習において有望なアプローチを提供するが、明示的な根拠なしに表現の崩壊に悩まされる。
本稿では,GMM-Anchored JEPAを提案する。GMM-Anchored JEPAはガウス混合モデルの対数メル分光法に一度適合し,凍結した軟体後部をトレーニングを通して補助目標とする。
GMMの規則化は、JEPAの目標に徐々に到達する前に、崩壊する監督スケジュールによって早期トレーニングを支配します。
反復的再クラスタ化を必要とする HuBERT や WavLM とは異なり、我々のアプローチはハード代入ではなくソフトでクラスタを入力します。
50k時間の音声では、GMMアンカーはASR(28.68% vs. 33.22% WER)、感情認識(67.76% vs. 65.46%)、スロットフィリング(64.7% vs. 59.1% F1)をWavLMスタイルのベースラインと一致した計算と比較すると改善している。
クラスタ分析では、WavLMスタイルの31%に比べて最大98%のエントロピーが達成され、クラスタの利用率が大幅に向上した。
コードはhttps://github.com/gioannides/clustering-anchored-jepaで公開されている。
関連論文リスト
- Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文 参考訳(メタデータ) (2026-01-12T20:33:39Z) - GAIA: A Foundation Model for Operational Atmospheric Dynamics [0.83442357861662]
我々は,MAE(Masked Autoencoders)とラベルのない自己蒸留(DINO)を融合したハイブリッド自己教師型モデルGAIAを紹介する。
GAIAは、自明な日中パターンではなく、大気力学を捉える非絡み合った表現を学ぶ。
下流タスクに移行すると、GAIAは一貫してMAEのみのベースラインを上回っます。
論文 参考訳(メタデータ) (2025-05-15T05:07:09Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - Accurate Molecular-Orbital-Based Machine Learning Energies via
Unsupervised Clustering of Chemical Space [0.0]
分子軌道ベース機械学習(MOB-ML)を用いたエネルギー予測におけるトレーニング効率と精度の向上を目的とした教師なしクラスタリングアルゴリズムを提案する。
この研究は、ガウス混合モデル(GMM)を介して完全に自動でクラスタを決定する。
論文 参考訳(メタデータ) (2022-04-21T00:56:16Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。