論文の概要: TrAct: Making First-layer Pre-Activations Trainable
- arxiv url: http://arxiv.org/abs/2410.23970v1
- Date: Thu, 31 Oct 2024 14:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:43.599851
- Title: TrAct: Making First-layer Pre-Activations Trainable
- Title(参考訳): TrAct: 1層プレアクティベーションをトレーニング可能に
- Authors: Felix Petersen, Christian Borgelt, Stefano Ermon,
- Abstract要約: 視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。
コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。
非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
- 参考スコア(独自算出の注目度): 65.40281259525578
- License:
- Abstract: We consider the training of the first layer of vision models and notice the clear relationship between pixel values and gradient update magnitudes: the gradients arriving at the weights of a first layer are by definition directly proportional to (normalized) input pixel values. Thus, an image with low contrast has a smaller impact on learning than an image with higher contrast, and a very bright or very dark image has a stronger impact on the weights than an image with moderate brightness. In this work, we propose performing gradient descent on the embeddings produced by the first layer of the model. However, switching to discrete inputs with an embedding layer is not a reasonable option for vision models. Thus, we propose the conceptual procedure of (i) a gradient descent step on first layer activations to construct an activation proposal, and (ii) finding the optimal weights of the first layer, i.e., those weights which minimize the squared distance to the activation proposal. We provide a closed form solution of the procedure and adjust it for robust stochastic training while computing everything efficiently. Empirically, we find that TrAct (Training Activations) speeds up training by factors between 1.25x and 4x while requiring only a small computational overhead. We demonstrate the utility of TrAct with different optimizers for a range of different vision models including convolutional and transformer architectures.
- Abstract(参考訳): 第一層の重みに到達した勾配は、(正規化)入力画素値と直接比例して定義される。
このように、コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さく、非常に明るい画像や非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
本研究では,モデルの第1層が生成する埋め込みの勾配降下を行う手法を提案する。
しかし、埋め込み層で個別の入力に切り替えることは、視覚モデルにとって合理的な選択肢ではない。
そこで我々は,概念的手続きを提案する。
一 第一層アクティベーションの勾配降下段階において、アクティベーション提案を作成すること。
(2)第1層の最適な重み、すなわち活性化提案までの2乗距離を最小化する重みを求める。
手順のクローズドフォームソリューションを提供し、すべてを効率的に計算しながら、頑健な確率的トレーニングのために調整する。
実験的に、TrAct(Training Activations)が1.25倍から4倍の要素でトレーニングをスピードアップし、計算オーバーヘッドはわずかである。
我々は、畳み込みアーキテクチャやトランスフォーマーアーキテクチャを含む様々なビジョンモデルに対して、様々な最適化器を用いたTrActの有用性を実証する。
関連論文リスト
- Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。
本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。
拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文 参考訳(メタデータ) (2024-07-16T17:59:42Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Compact Model Training by Low-Rank Projection with Energy Transfer [13.446719541044663]
低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。
従来の低ランクネットワーク圧縮手法は、事前学習されたモデルと再学習を近似してネットワークを圧縮する。
我々は、低ランク圧縮ネットワークをスクラッチからトレーニングし、競争性能を向上する新しいトレーニング手法、低ランク投射とエネルギー伝達を考案した。
論文 参考訳(メタデータ) (2022-04-12T06:53:25Z) - Decoupled Low-light Image Enhancement [21.111831640136835]
本稿では,拡張モデルを2つの段階に分離することを提案する。
第1ステージでは、ピクセル単位の非線形マッピングに基づいて、シーンの可視性を改善することに焦点を当てている。
第2段階は、残りの変性因子を抑えることにより、外観の忠実度を改善することに焦点を当てる。
論文 参考訳(メタデータ) (2021-11-29T11:15:38Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Partial transfusion: on the expressive influence of trainable batch norm
parameters for transfer learning [0.0]
ImageNetからのトランスファーラーニングは、深層学習を医療画像に適用する際のゴートアプローチである。
ほとんどのモダンアーキテクチャにはバッチの正規化レイヤが含まれており、そのようなレイヤでモデルを微調整するには、いくつかの注意が必要である。
バッチ正規化レイヤのトレーニング可能な重みを微調整するだけで、すべての重みを微調整するのと同じようなパフォーマンスが得られることが分かりました。
論文 参考訳(メタデータ) (2021-02-10T16:29:03Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z) - A Two-step-training Deep Learning Framework for Real-time Computational
Imaging without Physics Priors [0.0]
本稿では,物理を前提としないリアルタイムな計算画像作成のための2段階学習用DL(TST-DL)フレームワークを提案する。
まず、モデルを直接学習するために、単一の完全接続層(FCL)をトレーニングする。
そして、このFCLを未訓練のU-Netアーキテクチャで固定固定し、第2ステップのトレーニングを行い、出力画像の忠実性を改善する。
論文 参考訳(メタデータ) (2020-01-10T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。