論文の概要: Deriving Decoder-Free Sparse Autoencoders from First Principles
- arxiv url: http://arxiv.org/abs/2601.06478v1
- Date: Sat, 10 Jan 2026 08:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.839891
- Title: Deriving Decoder-Free Sparse Autoencoders from First Principles
- Title(参考訳): 第一原理によるデコーダフリースパースオートエンコーダの導出
- Authors: Alan Oursland,
- Abstract要約: 理論はガウス混合モデルにおける対数決定式に類似した体積制御なしで崩壊を予測する。
ボリューム制御のためのLSE目標とInfoMax正則化を備えた単一層エンコーダで理論をインスタンス化する。
実験は理論の予測を裏付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient descent on log-sum-exp (LSE) objectives performs implicit expectation--maximization (EM): the gradient with respect to each component output equals its responsibility. The same theory predicts collapse without volume control analogous to the log-determinant in Gaussian mixture models. We instantiate the theory in a single-layer encoder with an LSE objective and InfoMax regularization for volume control. Experiments confirm the theory's predictions. The gradient--responsibility identity holds exactly; LSE alone collapses; variance prevents dead components; decorrelation prevents redundancy. The model exhibits EM-like optimization dynamics in which lower loss does not correspond to better features and adaptive optimizers offer no advantage. The resulting decoder-free model learns interpretable mixture components, confirming that implicit EM theory can prescribe architectures.
- Abstract(参考訳): log-sum-exp (LSE) の目的に対する勾配降下は暗黙の期待-最大化(EM)を行う。
同じ理論はガウス混合モデルにおける対数決定式に類似した体積制御なしで崩壊を予測する。
ボリューム制御のためのLSE目標とInfoMax正則化を備えた単一層エンコーダで理論をインスタンス化する。
実験は理論の予測を裏付ける。
LSEのみは崩壊し、分散は死んだ成分を妨げ、デコリレーションは冗長性を阻害する。
このモデルはEMライクな最適化力学を示し、低損失はより良い特徴に対応せず、適応最適化器は利点がない。
結果として生じるデコーダフリーモデルは解釈可能な混合成分を学習し、暗黙のEM理論がアーキテクチャを規定できることを確認した。
関連論文リスト
- A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Learning Mixtures of Experts with EM: A Mirror Descent Perspective [28.48469221248906]
古典的なMixtures of Experts(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた個別の"エキスパート"モデルである。
我々は,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの理論的保証について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - How to train your VAE [0.0]
変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。
本稿では,ELBO(エビデンス・ロウアー・バウンド)における重要な構成要素であるKLディバージェンス(Kulback-Leibler)の解釈について検討する。
提案手法は, ELBOを後続確率のガウス混合体で再定義し, 正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。
論文 参考訳(メタデータ) (2023-09-22T19:52:28Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Variational Auto-Encoder: not all failures are equal [0.0]
我々は,VAEのぼかし問題に対して,鋭さ学習がいかに対処しているかを示す。
この論文は、人工データ(MNISTとCelebA)の実験に基づいており、その鋭さ学習が、悪名高いVAEのぼかし問題にどのように対処するかを示している。
論文 参考訳(メタデータ) (2020-03-04T09:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。