論文の概要: How Do Training Methods Influence the Utilization of Vision Models?
- arxiv url: http://arxiv.org/abs/2410.14470v1
- Date: Fri, 18 Oct 2024 13:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:17.608726
- Title: How Do Training Methods Influence the Utilization of Vision Models?
- Title(参考訳): トレーニング手法は視覚モデルの活用にどのように影響するか?
- Authors: Paul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper,
- Abstract要約: すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。
アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。
本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
- 参考スコア(独自算出の注目度): 23.41975772383921
- License:
- Abstract: Not all learnable parameters (e.g., weights) contribute equally to a neural network's decision function. In fact, entire layers' parameters can sometimes be reset to random values with little to no impact on the model's decisions. We revisit earlier studies that examined how architecture and task complexity influence this phenomenon and ask: is this phenomenon also affected by how we train the model? We conducted experimental evaluations on a diverse set of ImageNet-1k classification models to explore this, keeping the architecture and training data constant but varying the training pipeline. Our findings reveal that the training method strongly influences which layers become critical to the decision function for a given task. For example, improved training regimes and self-supervised training increase the importance of early layers while significantly under-utilizing deeper layers. In contrast, methods such as adversarial training display an opposite trend. Our preliminary results extend previous findings, offering a more nuanced understanding of the inner mechanics of neural networks. Code: https://github.com/paulgavrikov/layer_criticality
- Abstract(参考訳): すべての学習可能なパラメータ(例えばウェイト)が、ニューラルネットワークの決定関数に等しく寄与するわけではない。
実際、レイヤ全体のパラメータは、モデルの決定にほとんど、あるいは全く影響しないランダムな値にリセットされることがある。
我々は、アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考し、この現象はモデルのトレーニング方法にも影響しますか?
我々は、様々な画像Net-1k分類モデルを用いて、アーキテクチャとトレーニングデータを一定に保ちながら、トレーニングパイプラインを変化させる実験を行った。
本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
例えば、トレーニング体制の改善や自己監督型トレーニングは、より深いレイヤを著しく活用しながら、初期のレイヤの重要性を高めます。
対照的に、逆行訓練などの手法は逆の傾向を示す。
予備的な結果は、以前の結果を拡張し、ニューラルネットワークの内部力学をより微妙に理解することを可能にする。
コード:https://github.com/paulgavrikov/layer_ criticality
関連論文リスト
- Simple and Effective Transfer Learning for Neuro-Symbolic Integration [50.592338727912946]
この問題の潜在的な解決策はNeuro-Symbolic Integration (NeSy)であり、ニューラルアプローチとシンボリック推論を組み合わせる。
これらの手法のほとんどは、認識をシンボルにマッピングするニューラルネットワークと、下流タスクの出力を予測する論理的論理的推論を利用する。
それらは、緩やかな収束、複雑な知覚タスクの学習困難、局所的なミニマへの収束など、いくつかの問題に悩まされている。
本稿では,これらの問題を改善するための簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:51:01Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Scaling Laws For Deep Learning Based Image Reconstruction [26.808569077500128]
トレーニングセットのサイズをスケールアップすることで、大きなパフォーマンス向上が期待できるかどうかを調査する。
初期の急激なパワーロースケーリングは、適度なトレーニングセットサイズですでに大幅に遅くなっています。
我々は、線形推定器の性能を早期に停止勾配降下によって解析的に評価した。
論文 参考訳(メタデータ) (2022-09-27T14:44:57Z) - Auto-tuning of Deep Neural Networks by Conflicting Layer Removal [0.0]
トレーニングモデルのテスト精度を低下させる層を識別する新しい手法を提案する。
矛盾する層は、トレーニングの開始時に早期に検出される。
訓練された残存ネットワークのレイヤの約60%が、アーキテクチャから完全に取り除かれることを示しています。
論文 参考訳(メタデータ) (2021-03-07T11:51:55Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Using Cross-Loss Influence Functions to Explain Deep Network
Representations [1.7778609937758327]
トレーニングやテスト設定のミスマッチに対処するために,影響関数を拡張できることが示される。
その結果, 教師なし, 自己監督型トレーニングの実施例の影響を, 教師付きテストの目的に対して計算できることがわかった。
論文 参考訳(メタデータ) (2020-12-03T03:43:26Z) - Learning to Rank Learning Curves [15.976034696758148]
本稿では,トレーニングの早い段階で,構成不良を解消し,計算予算を削減できる新しい手法を提案する。
我々は,学習曲線を観測することなく,学習曲線を効果的にランク付けできることを示す。
論文 参考訳(メタデータ) (2020-06-05T10:49:52Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。