Fugu-MT 論文翻訳(概要): Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures

論文の概要: Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures

arxiv url: http://arxiv.org/abs/2602.09040v1
Date: Fri, 30 Jan 2026 20:51:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-15 14:54:53.706751
Title: Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures
Title（参考訳）: 共同埋め込み予測アーキテクチャにおける自己教師付き音声表現学習のためのソフトクラスタリングアンカー
Authors: Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv,
Abstract要約: JEPA(Joint Embedding Predictive Architectures)は、自己教師型音声表現学習において有望なアプローチを提供するが、明示的な根拠なしに表現の崩壊に悩まされる。本稿では,GMM-Anchored JEPAを提案する。GMM-Anchored JEPAはガウス混合モデルの対数メル分光法に一度適合し,凍結した軟体後部をトレーニングを通して補助目標とする。 50k時間音声では、GMMアンカーがASR(28.68% vs. 33.22% WER)、感情認識(67.76% vs. 65.46%)、スロットフィリング(64.7% vs. 59.1% F1)を改善している。
参考スコア（独自算出の注目度）: 45.74430728311433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Joint Embedding Predictive Architectures (JEPA) offer a promising approach to self-supervised speech representation learning, but suffer from representation collapse without explicit grounding. We propose GMM-Anchored JEPA, which fits a Gaussian Mixture Model once on log-mel spectrograms and uses its frozen soft posteriors as auxiliary targets throughout training. A decaying supervision schedule allows GMM regularization to dominate early training before gradually yielding to the JEPA objective. Unlike HuBERT and WavLM, which require iterative re-clustering, our approach clusters input features once with soft rather than hard assignments. On ~50k hours of speech, GMM anchoring improves ASR (28.68% vs. 33.22% WER), emotion recognition (67.76% vs. 65.46%), and slot filling (64.7% vs. 59.1% F1) compared to a WavLM-style baseline with matched compute. Cluster analysis shows GMM-anchored representations achieve up to 98% entropy compared to 31% for WavLM-style, indicating substantially more uniform cluster utilization. Code is made available at https://github.com/gioannides/clustering-anchored-jepa.
Abstract（参考訳）: JEPA(Joint Embedding Predictive Architectures)は、自己教師型音声表現学習において有望なアプローチを提供するが、明示的な根拠なしに表現の崩壊に悩まされる。本稿では,GMM-Anchored JEPAを提案する。GMM-Anchored JEPAはガウス混合モデルの対数メル分光法に一度適合し,凍結した軟体後部をトレーニングを通して補助目標とする。 GMMの規則化は、JEPAの目標に徐々に到達する前に、崩壊する監督スケジュールによって早期トレーニングを支配します。反復的再クラスタ化を必要とする HuBERT や WavLM とは異なり、我々のアプローチはハード代入ではなくソフトでクラスタを入力します。 50k時間の音声では、GMMアンカーはASR(28.68% vs. 33.22% WER)、感情認識(67.76% vs. 65.46%)、スロットフィリング(64.7% vs. 59.1% F1)をWavLMスタイルのベースラインと一致した計算と比較すると改善している。クラスタ分析では、WavLMスタイルの31%に比べて最大98%のエントロピーが達成され、クラスタの利用率が大幅に向上した。コードはhttps://github.com/gioannides/clustering-anchored-jepaで公開されている。

関連論文リスト

Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。 GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文参考訳（メタデータ） (2026-01-12T20:33:39Z)
Fortytwo: Swarm Inference with Peer-Ranked Consensus [36.94429692322632]
我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
論文参考訳（メタデータ） (2025-10-27T23:19:48Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
GAIA: A Foundation Model for Operational Atmospheric Dynamics [0.83442357861662]
我々は,MAE(Masked Autoencoders)とラベルのない自己蒸留(DINO)を融合したハイブリッド自己教師型モデルGAIAを紹介する。 GAIAは、自明な日中パターンではなく、大気力学を捉える非絡み合った表現を学ぶ。下流タスクに移行すると、GAIAは一貫してMAEのみのベースラインを上回っます。
論文参考訳（メタデータ） (2025-05-15T05:07:09Z)
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning [15.61345581743979]
次世代マルチモーダル推論モデルであるSkywork R1V2を提案する。コアとなるR1V2では、ハイブリッド強化学習パラダイムが導入されている。
論文参考訳（メタデータ） (2025-04-23T12:24:10Z)
Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文参考訳（メタデータ） (2024-10-31T08:15:32Z)
Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文参考訳（メタデータ） (2024-05-28T06:10:12Z)
Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。 GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。 GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-26T01:25:03Z)
Accurate Molecular-Orbital-Based Machine Learning Energies via Unsupervised Clustering of Chemical Space [0.0]
分子軌道ベース機械学習(MOB-ML)を用いたエネルギー予測におけるトレーニング効率と精度の向上を目的とした教師なしクラスタリングアルゴリズムを提案する。この研究は、ガウス混合モデル(GMM)を介して完全に自動でクラスタを決定する。
論文参考訳（メタデータ） (2022-04-21T00:56:16Z)
Tight integration of neural- and clustering-based diarization through deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文参考訳（メタデータ） (2022-02-14T07:45:21Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。