論文の概要: Deep Linear Probe Generators for Weight Space Learning
- arxiv url: http://arxiv.org/abs/2410.10811v1
- Date: Mon, 14 Oct 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:58.950582
- Title: Deep Linear Probe Generators for Weight Space Learning
- Title(参考訳): 重み付き宇宙学習用深部線形プローブ発電機
- Authors: Jonathan Kahana, Eliahu Horwitz, Imri Shuval, Yedid Hoshen,
- Abstract要約: プローブは、学習した入力(プローブ)のセットをモデルに渡すことでモデルを表し、対応する出力の上に予測器を訓練する。
ProbeGenは、深い線形アーキテクチャを備えた共有ジェネレータモジュールを追加し、構造化プローブに対する誘導バイアスを提供する。
ProbeGenは最先端よりも大幅にパフォーマンスが良く、非常に効率的で、他のトップアプローチの30~1000倍のFLOPを必要とする。
- 参考スコア(独自算出の注目度): 39.90685550999956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight space learning aims to extract information about a neural network, such as its training dataset or generalization error. Recent approaches learn directly from model weights, but this presents many challenges as weights are high-dimensional and include permutation symmetries between neurons. An alternative approach, Probing, represents a model by passing a set of learned inputs (probes) through the model, and training a predictor on top of the corresponding outputs. Although probing is typically not used as a stand alone approach, our preliminary experiment found that a vanilla probing baseline worked surprisingly well. However, we discover that current probe learning strategies are ineffective. We therefore propose Deep Linear Probe Generators (ProbeGen), a simple and effective modification to probing approaches. ProbeGen adds a shared generator module with a deep linear architecture, providing an inductive bias towards structured probes thus reducing overfitting. While simple, ProbeGen performs significantly better than the state-of-the-art and is very efficient, requiring between 30 to 1000 times fewer FLOPs than other top approaches.
- Abstract(参考訳): 重み付き空間学習は、トレーニングデータセットや一般化エラーなどのニューラルネットワークに関する情報を抽出することを目的としている。
近年のアプローチでは、モデルウェイトから直接学習するが、これは重みが高次元であり、ニューロン間の置換対称性を含むため、多くの課題を呈している。
別のアプローチであるProbingは、学習した入力(プローブ)のセットをモデルに渡すことでモデルを表し、対応する出力の上に予測器をトレーニングする。
予備的な実験では、バニラプローブのベースラインが驚くほどうまく機能していることがわかりました。
しかし、現在のプローブ学習戦略は効果がないことが判明した。
そこで我々は,探索手法の簡易かつ効果的な修正であるDeep Linear Probe Generators (ProbeGen)を提案する。
ProbeGenは、深い線形アーキテクチャを持つ共有ジェネレータモジュールを追加し、構造化プローブに対する誘導バイアスを与え、オーバーフィッティングを減らす。
シンプルながら、ProbeGenは最先端よりも大幅にパフォーマンスが良く、非常に効率的で、他のトップアプローチの30~1000倍のFLOPを必要とする。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Learning from Linear Algebra: A Graph Neural Network Approach to Preconditioner Design for Conjugate Gradient Solvers [42.69799418639716]
深層学習モデルは、共役勾配 (CG) 法のような線形解法を反復する際の残差を予条件として用いることができる。
ニューラルネットワークモデルは、この設定でうまく近似するために、膨大な数のパラメータを必要とする。
本研究では,線形代数学から確立したプレコンディショナーを思い出し,GNNの学習の出発点として利用する。
論文 参考訳(メタデータ) (2024-05-24T13:44:30Z) - Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。
提案手法では,パラメータ数を70%以上圧縮できる。
また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文 参考訳(メタデータ) (2023-12-16T23:23:16Z) - A Metalearned Neural Circuit for Nonparametric Bayesian Inference [4.767884267554628]
機械学習の分類への応用のほとんどは、バランスの取れたクラスの閉じた集合を前提としている。
これは、クラス発生統計が長い尾の力量分布に従うことがしばしばある実世界と矛盾する。
本研究では,非パラメトリックベイズモデルから誘導バイアスを抽出し,人工ニューラルネットワークに転送する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T16:43:17Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Deep transfer learning for improving single-EEG arousal detection [63.52264764099532]
2つのデータセットは、単一のEEGモデルでパフォーマンスが低下する原因となる、まったく同じ設定を含んでいない。
単チャンネル脳波データのためのアーキテクチャを構築するために,ベースラインモデルをトレーニングし,最初の2層を置き換える。
細調整戦略を用いて,本モデルはベースラインモデルと同等の性能を示し,同等の単一チャネルモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。