論文の概要: Low-Complexity Probing via Finding Subnetworks
- arxiv url: http://arxiv.org/abs/2104.03514v1
- Date: Thu, 8 Apr 2021 05:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:12:06.837322
- Title: Low-Complexity Probing via Finding Subnetworks
- Title(参考訳): サブネット探索による低複雑さ探査
- Authors: Steven Cao, Victor Sanh, Alexander M. Rush
- Abstract要約: 言語特性のニューラルネットワークを探索するための減算的プローブを提案する。
サブネットワークプローブは,事前学習モデルでは高い精度,ランダムモデルでは低い精度を実現する。
各プローブの複雑さを変化させることで、プローブの複雑さの予算を考えると、サブネットワークがプローブの精度を高くすることを示す。
- 参考スコア(独自算出の注目度): 101.43611844196064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant approach in probing neural networks for linguistic properties is
to train a new shallow multi-layer perceptron (MLP) on top of the model's
internal representations. This approach can detect properties encoded in the
model, but at the cost of adding new parameters that may learn the task
directly. We instead propose a subtractive pruning-based probe, where we find
an existing subnetwork that performs the linguistic task of interest. Compared
to an MLP, the subnetwork probe achieves both higher accuracy on pre-trained
models and lower accuracy on random models, so it is both better at finding
properties of interest and worse at learning on its own. Next, by varying the
complexity of each probe, we show that subnetwork probing Pareto-dominates MLP
probing in that it achieves higher accuracy given any budget of probe
complexity. Finally, we analyze the resulting subnetworks across various tasks
to locate where each task is encoded, and we find that lower-level tasks are
captured in lower layers, reproducing similar findings in past work.
- Abstract(参考訳): 言語特性のためのニューラルネットワークの探索における主要なアプローチは、モデルの内部表現の上に新しい浅い多層パーセプトロン(MLP)を訓練することである。
このアプローチは、モデルにエンコードされたプロパティを検出することができるが、タスクを直接学習する可能性のある新しいパラメータを追加するコストがかかる。
そこで我々は,言語的タスクを実行する既存のサブネットワークを探索する,減算的プルーニングに基づくプローブを提案する。
mlpと比較すると、サブネットワークプローブは事前学習されたモデルにおいて高い精度とランダムモデルでのより低い精度の両方を達成しているため、興味のある特性を見つけるのに優れ、学習自体が悪くなっている。
次に、各プローブの複雑さを変化させることで、パレートドープしたサブネットワークが、プローブの複雑さの予算を考慮すれば高い精度で MLP を探索することを示す。
最後に,各タスクにまたがるサブネットワークを分析し,各タスクのエンコード場所を特定し,下位レベルタスクを低レベルレイヤにキャプチャし,過去の作業で同様の結果を再現する。
関連論文リスト
- Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and
Luck [35.6883212537938]
オフラインスパースパリティ学習は,多層パーセプトロンの勾配に基づくトレーニングにおいて,統計的クエリの下限を許容する教師付き分類問題である。
理論上, 実験上, 疎初期化とネットワーク幅の増大がサンプル効率を著しく向上させることを示す。
また,合成スパースパリティタスクは,軸方向の特徴学習を必要とする現実的な問題のプロキシとして有用であることを示す。
論文 参考訳(メタデータ) (2023-09-07T15:52:48Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Is Stochastic Gradient Descent Near Optimal? [0.0]
本研究では,多数のサンプルとクエリの総数を用いて,勾配勾配勾配の誤差が小さいことを示す。
このことは、SGDがJoen & Van Roy (arXiv:2203.00246) の情報理論的なサンプル複雑性境界を計算的に効率よく達成していることを示唆している。
論文 参考訳(メタデータ) (2022-09-18T18:26:43Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - SHRIMP: Sparser Random Feature Models via Iterative Magnitude Pruning [3.775565013663731]
IMP (ShRIMP) を用いたスペーサーランダム特徴モデル(スペーサーランダム特徴モデル)を提案する。
提案手法は,2層密集ネットワークにおける疎く宝くじを作成・発見するための複合的なプロセスとみなすことができる。
論文 参考訳(メタデータ) (2021-12-07T21:32:28Z) - Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning [70.76016793057283]
本研究では,事前学習型言語モデル(PLM)が普遍表現を学習し,異なる幅広いNLPタスクに効果的に適用する方法について検討する。
実験では,100個のランダムタスクを持つ5次元部分空間において,5つの自由パラメータをチューニングするだけで,全プロンプトチューニング性能の87%と65%を回復できることがわかった。
論文 参考訳(メタデータ) (2021-10-15T05:43:59Z) - Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。
定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。
MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文 参考訳(メタデータ) (2021-05-18T06:46:48Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。