論文の概要: The Dual Form of Neural Networks Revisited: Connecting Test Time
Predictions to Training Patterns via Spotlights of Attention
- arxiv url: http://arxiv.org/abs/2202.05798v1
- Date: Fri, 11 Feb 2022 17:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 17:29:19.928479
- Title: The Dual Form of Neural Networks Revisited: Connecting Test Time
Predictions to Training Patterns via Spotlights of Attention
- Title(参考訳): ニューラルネットワークの二重形式再考:注意のスポットライトを通してテスト時間予測とトレーニングパターンを結びつける
- Authors: Kazuki Irie, R\'obert Csord\'as, J\"urgen Schmidhuber
- Abstract要約: 勾配降下によって訓練されたニューラルネットワーク(NN)の線形層は、キー値メモリシステムとして表現できる。
このような形でNNの運用を効果的に研究した以前の研究はない。
我々は,単一タスク,マルチタスク,連続的な学習環境において,小規模な教師付き画像分類タスクについて実験を行った。
- 参考スコア(独自算出の注目度): 8.131130865777344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear layers in neural networks (NNs) trained by gradient descent can be
expressed as a key-value memory system which stores all training datapoints and
the initial weights, and produces outputs using unnormalised dot attention over
the entire training experience. While this has been technically known since the
'60s, no prior work has effectively studied the operations of NNs in such a
form, presumably due to prohibitive time and space complexities and impractical
model sizes, all of them growing linearly with the number of training patterns
which may get very large. However, this dual formulation offers a possibility
of directly visualizing how an NN makes use of training patterns at test time,
by examining the corresponding attention weights. We conduct experiments on
small scale supervised image classification tasks in single-task, multi-task,
and continual learning settings, as well as language modelling, and discuss
potentials and limits of this view for better understanding and interpreting
how NNs exploit training patterns. Our code is public.
- Abstract(参考訳): 勾配降下によってトレーニングされたニューラルネットワーク(nn)の線形層は、すべてのトレーニングデータポイントと初期重みを格納し、トレーニングエクスペリエンス全体にわたって非正規化ドットアテンションを使用して出力するキー値メモリシステムとして表現することができる。
これは、技術的には60年代から知られているが、そのような形態のnnの操作を効果的に研究する先行研究は、おそらく、禁止された時間と空間の複雑さと非実用的モデルサイズによって行われており、いずれも非常に大きなトレーニングパターンの数で線形に成長している。
しかし、この二重定式化は、NNがテスト時にトレーニングパターンをどのように利用するかを、対応する注意重みを調べて直接視覚化する可能性がある。
我々は,単一タスク,マルチタスク,連続学習の学習設定,言語モデリングにおいて,小規模の教師付き画像分類タスクの実験を行い,nnsがトレーニングパターンをどのように活用するかをより理解し,解釈するためのこの視点の可能性と限界について論じる。
私たちのコードは公開されています。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Continual Learning with Invertible Generative Models [15.705568893476947]
破滅的な忘れ(CF)は、ニューラルネットワークが新しいタスクでトレーニングされている間、過去の知識を上書きするたびに起こる。
本稿では,正規化の強みと生成的リハーサルアプローチを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:28:30Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - Training Deep Neural Networks with Joint Quantization and Pruning of
Weights and Activations [5.17729871332369]
最先端の量子化技術は現在、ディープニューラルネットワークの重みと活性化の両方に応用されている。
本研究では、トレーニング中の深部ニューラルネットワークの重みと活性化の両方に、新しい均一量子化法と非構造化プルーニング法を併用する。
論文 参考訳(メタデータ) (2021-10-15T16:14:36Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - On the interplay between physical and content priors in deep learning
for computational imaging [5.486833154281385]
我々は、レンズレス位相イメージングシステムにおいて、位相抽出ニューラルネットワーク(PhENN)を用いて定量的位相検索を行う。
2つの質問が関連していることを示し、トレーニング例の選択という共通点を共有します。
また, より弱い正規化効果により, 基礎となる伝搬モデルの学習性が向上することが判明した。
論文 参考訳(メタデータ) (2020-04-14T08:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。