論文の概要: Why Self-Supervised Encoders Want to Be Normal
- arxiv url: http://arxiv.org/abs/2604.27743v1
- Date: Thu, 30 Apr 2026 11:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.069033
- Title: Why Self-Supervised Encoders Want to Be Normal
- Title(参考訳): 自己監督型エンコーダが普通になりたい理由
- Authors: Yuval Domb,
- Abstract要約: Information Bottleneck (IB) の原理に基づくエンコーダ・デコーダ学習のためのフレームワークを開発する。
任意の歪みレベルでの最適表現は、確率単純多様体 $mathcalM=p(Y|x):xinmathcalX$ のソフトクラスタリングであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a geometric and information-theoretic framework for encoder-decoder learning built on the Information Bottleneck (IB) principle. Recasting IB as a rate-distortion problem with Kullback-Leibler (KL) divergence as distortion, we show that the optimal representation at any distortion level is a soft clustering of the \emph{predictive manifold} $\mathcal{M}=\{p(Y|x):x\in\mathcal{X}\}$ inside the probability simplex, admitting a linear decoder in the canonical parameterization. We derive a chain of exact transformations, from flat Dirichlet to exponential to isotropic Gaussian, connecting the maximum entropy prior on the simplex to Euclidean space, with quantified entropy overhead at each step, and show that Sketched Isotropic Gaussian Regularization (SIGReg) implements a Gaussian relaxation of this principle whose overhead affects rate accounting but not achievable prediction. This relaxation provides a principled distributional regularizer for learning with limited or no supervision. Using the Conditional Entropy Bottleneck (CEB) decomposition, we derive concrete encoder losses for supervised and semi-supervised settings, estimated via minibatch marginals without variational bounds. In the self-supervised setting, the CEB conditional rate is replaced by a view-prediction proxy. SIGReg serves as the distributional regularizer for both the semi-supervised and self-supervised settings. Experiments on toy problems and FashionMNIST confirm the predicted rate-distortion trade-offs and show that the non-parametric estimator is competitive with the standard variational approach.
- Abstract(参考訳): Information Bottleneck (IB) の原理に基づくエンコーダ・デコーダ学習のための幾何学的および情報理論のフレームワークを開発する。
Kullback-Leibler (KL) が歪みとして発散する速度歪み問題として IB をリキャストすると、任意の歪みレベルの最適表現が \emph{predictive manifold} $\mathcal{M}=\{p(Y|x):x\in\mathcal{X}\}$ のソフトクラスタリングであることを示し、正準パラメータ化における線形デコーダを許容する。
我々は、平坦なディリクレから指数関数から等方ガウスへの正確な変換の連鎖を導出し、単純体上の最大エントロピーをユークリッド空間に接続し、各ステップにおける量子エントロピーのオーバーヘッドを定量化し、Sketched isotropic Gaussian regularization (SIGReg) がこの原理のガウス的緩和を行い、そのオーバーヘッドが計算に影響を及ぼすが、達成可能な予測にはならないことを示す。
この緩和は、限定的または無監督で学習するための原則化された分布正規化器を提供する。
条件付きエントロピー・ボトルネック (CEB) 分解法を用いて, 教師付きおよび半教師付きセッティングにおけるコンクリートエンコーダの損失を, 変動境界のないミニバッチ境界を用いて推定した。
自己監督設定では、CEB条件率をビュー予測プロキシに置き換える。
SIGRegは、半教師付き設定と自己教師型設定の両方の分散正規化器として機能する。
玩具問題の実験とFashionMNISTは、予測された速度歪みトレードオフを確認し、非パラメトリック推定器が標準変分法と競合していることを示す。
関連論文リスト
- Beyond Semantic Priors: Mitigating Optimization Collapse for Generalizable Visual Forensics [12.973951916863989]
我々は,非セマンティックなフォージェリーのランダムな推測にデジェネレーションを施した「最適化崩壊」と呼ばれる故障モードを同定する。
計算効率の良いCGP(Contrastive Gradient Proxy)と3つのトレーニングフリー戦略を統合したContrastive Regional Injection Transformer(CoRIT)を提案する。
CoRITは最適化の崩壊を緩和し、クロスドメインおよびユニバーサルフォージェリーベンチマーク間の最先端の一般化を実現する。
論文 参考訳(メタデータ) (2026-03-25T08:03:30Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities [0.0]
非コン最適化タスクのための新しいアルゴリズムとしてVR-A-A(VarianceReduced-Ascent with Armijo)を提案する。
本手法は,手動学習スケジューリングへの依存度を低減して,限界周期を効果的に抑制し,収束を加速することを示す。
論文 参考訳(メタデータ) (2026-01-30T14:43:07Z) - Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。
我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。
本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文 参考訳(メタデータ) (2025-07-15T16:33:01Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。