論文の概要: The Persian Rug: solving toy models of superposition using large-scale symmetries
- arxiv url: http://arxiv.org/abs/2410.12101v2
- Date: Tue, 22 Oct 2024 17:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 18:22:46.189237
- Title: The Persian Rug: solving toy models of superposition using large-scale symmetries
- Title(参考訳): ペルシャ・ラグビー : 大規模対称性を用いた重ね合わせのおもちゃモデル
- Authors: Aditya Cowsik, Kfir Dolev, Alex Infanger,
- Abstract要約: 入力次元が大きければ最小限の非線形スパースデータオートエンコーダによって学習されたアルゴリズムの完全なメカニスティック記述を示す。
我々の研究は、オートエンコーダの構造を理解する技術を導入することによって、ニューラルネットワークの解釈可能性に貢献している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a complete mechanistic description of the algorithm learned by a minimal non-linear sparse data autoencoder in the limit of large input dimension. The model, originally presented in arXiv:2209.10652, compresses sparse data vectors through a linear layer and decompresses using another linear layer followed by a ReLU activation. We notice that when the data is permutation symmetric (no input feature is privileged) large models reliably learn an algorithm that is sensitive to individual weights only through their large-scale statistics. For these models, the loss function becomes analytically tractable. Using this understanding, we give the explicit scalings of the loss at high sparsity, and show that the model is near-optimal among recently proposed architectures. In particular, changing or adding to the activation function any elementwise or filtering operation can at best improve the model's performance by a constant factor. Finally, we forward-engineer a model with the requisite symmetries and show that its loss precisely matches that of the trained models. Unlike the trained model weights, the low randomness in the artificial weights results in miraculous fractal structures resembling a Persian rug, to which the algorithm is oblivious. Our work contributes to neural network interpretability by introducing techniques for understanding the structure of autoencoders. Code to reproduce our results can be found at https://github.com/KfirD/PersianRug .
- Abstract(参考訳): 入力次元が大きければ最小限の非線形スパースデータオートエンコーダによって学習されたアルゴリズムの完全なメカニスティック記述を示す。
このモデルは元々arXiv:2209.10652で示され、線形層を通してスパースデータベクトルを圧縮し、ReLUアクティベーションに続く別の線形層を用いて圧縮する。
データが置換対称である場合(入力機能は特権的ではない)、大規模モデルは大規模統計量のみで個々の重みに敏感なアルゴリズムを確実に学習する。
これらのモデルの場合、損失関数は解析的に抽出可能である。
この理解を用いて、高疎度での損失の明示的なスケーリングを示し、最近提案されたアーキテクチャではモデルがほぼ最適であることを示す。
特に、任意の要素ワイズやフィルタリング操作でアクティベーション関数を変更したり追加したりすることで、モデルの性能を定数係数で向上させることができる。
最後に、必要な対称性を持つモデルを前方エンジニアリングし、その損失がトレーニングされたモデルと正確に一致することを示す。
訓練された模型の重量とは異なり、人工的な重量のランダム性はペルシャの敷物に似た奇跡的なフラクタル構造をもたらす。
我々の研究は、オートエンコーダの構造を理解する技術を導入することによって、ニューラルネットワークの解釈可能性に貢献している。
結果を再現するコードはhttps://github.com/KfirD/PersianRug で見ることができる。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - uGLAD: Sparse graph recovery by optimizing deep unrolled networks [11.48281545083889]
深層ネットワークを最適化してスパースグラフ復元を行う新しい手法を提案する。
我々のモデルであるuGLADは、最先端モデルGLADを教師なし設定に構築し、拡張します。
我々は, 遺伝子調節ネットワークから生成した合成ガウスデータ, 非ガウスデータを用いて, モデル解析を行い, 嫌気性消化の事例研究を行った。
論文 参考訳(メタデータ) (2022-05-23T20:20:27Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - The data-driven physical-based equations discovery using evolutionary
approach [77.34726150561087]
与えられた観測データから数学的方程式を発見するアルゴリズムについて述べる。
このアルゴリズムは遺伝的プログラミングとスパース回帰を組み合わせたものである。
解析方程式の発見や偏微分方程式(PDE)の発見にも用いられる。
論文 参考訳(メタデータ) (2020-04-03T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。