Fugu-MT 論文翻訳(概要): Why Self-Supervised Encoders Want to Be Normal

論文の概要: Why Self-Supervised Encoders Want to Be Normal

arxiv url: http://arxiv.org/abs/2604.27743v2
Date: Sun, 03 May 2026 18:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 14:09:07.080078
Title: Why Self-Supervised Encoders Want to Be Normal
Title（参考訳）: 自己監督型エンコーダが普通になりたい理由
Authors: Yuval Domb,
Abstract要約: 自己教師型エンコーダにおける正規分布の優先性は,インフォメーション・ボトルネック(IB)の原理の直接的な帰結であることを示す。この枠組みでは、潜在表現は、類似の予測分布を共有する入力のソフトクラスタリングに対応することを示す。この観点は、広く使われている正規化スキームに対する原則的な説明として、教師付きおよび教師なしの目的を広範囲に統一する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning has achieved remarkable empirical success in learning robust representations without explicit labels, most recently demonstrated within the framework of Joint-Embedding Predictive Architectures (JEPA). However, a fundamental question remains: what analytical principles drive these encoders toward specific distributional states? In this paper, we demonstrate that the preference for normal distributions in self-supervised encoders is a direct consequence of the Information Bottleneck (IB) principle. By recasting the IB objective as a rate-distortion problem over the predictive manifold, we provide a theoretical basis for why optimal, target-neutral, latent representations should tend towards isotropic Gaussian states. Under this framework, we show that latent representations correspond to soft clustering of inputs sharing similar predictive distributions, organized within a natural simplex structure. This perspective unifies a wide range of existing supervised and less-supervised objectives and provides a principled explanation for commonly used regularization schemes. Furthermore, we derive practical loss objectives that approximate this structure and demonstrate their effectiveness on standard benchmarks. Ultimately, our framework offers a geometric lens to understanding representation collapse and it establishes a mathematical system for regularization strategies to be used to ensure high-entropy, informative embeddings in modern self-supervised models.
Abstract（参考訳）: 自己教師型学習は、明示的なラベルのない堅牢な表現を学習する上で、顕著な経験的成功を達成している。しかし、根本的な疑問が残る:これらのエンコーダを特定の分布状態へと導く分析的原則は何か。本稿では,自己教師型エンコーダにおける正規分布の嗜好が,インフォメーション・ボトルネック(IB)の原理の直接的な帰結であることを示す。 IB の目的を予測多様体上の速度歪み問題として再キャストすることにより、なぜ最適で目標ニュートラルな潜在表現が等方的ガウス状態に向き合わなければならないのかという理論的基礎を提供する。この枠組みでは、潜在表現は、自然な単純な構造の中で構成された類似の予測分布を共有する入力のソフトクラスタリングに対応することを示す。この観点は、広く使われている正規化スキームに対する原則的な説明として、教師付きおよび教師なしの目的を広範囲に統一する。さらに、この構造を近似した実用的な損失目標を導出し、標準ベンチマーク上での有効性を実証する。最終的に、我々のフレームワークは表現の崩壊を理解するための幾何学的レンズを提供し、現代の自己監督モデルに高エントロピー、情報的埋め込みを保証するために正規化戦略を使用するための数学的システムを確立する。

関連論文リスト

Beyond Semantic Priors: Mitigating Optimization Collapse for Generalizable Visual Forensics [12.973951916863989]
我々は,非セマンティックなフォージェリーのランダムな推測にデジェネレーションを施した「最適化崩壊」と呼ばれる故障モードを同定する。計算効率の良いCGP(Contrastive Gradient Proxy)と3つのトレーニングフリー戦略を統合したContrastive Regional Injection Transformer(CoRIT)を提案する。 CoRITは最適化の崩壊を緩和し、クロスドメインおよびユニバーサルフォージェリーベンチマーク間の最先端の一般化を実現する。
論文参考訳（メタデータ） (2026-03-25T08:03:30Z)
Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文参考訳（メタデータ） (2026-02-26T15:27:53Z)
Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文参考訳（メタデータ） (2026-02-24T05:32:03Z)
Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。 9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文参考訳（メタデータ） (2026-02-09T22:48:30Z)
Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities [0.0]
非コン最適化タスクのための新しいアルゴリズムとしてVR-A-A(VarianceReduced-Ascent with Armijo)を提案する。本手法は,手動学習スケジューリングへの依存度を低減して,限界周期を効果的に抑制し,収束を加速することを示す。
論文参考訳（メタデータ） (2026-01-30T14:43:07Z)
Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文参考訳（メタデータ） (2025-07-15T16:33:01Z)
Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-27T17:56:49Z)
Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-11T15:20:54Z)
Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。 MRP のサブクラスに対する minimax の下位境界を証明する。
論文参考訳（メタデータ） (2021-09-24T14:48:20Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。