論文の概要: Patch Gradient Descent: Training Neural Networks on Very Large Images
- arxiv url: http://arxiv.org/abs/2301.13817v1
- Date: Tue, 31 Jan 2023 18:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:36:21.984528
- Title: Patch Gradient Descent: Training Neural Networks on Very Large Images
- Title(参考訳): Patch Gradient Descent:超大型画像によるニューラルネットワークのトレーニング
- Authors: Deepak K. Gupta, Gowreesh Mago, Arnav Chavan, Dilip K. Prasad
- Abstract要約: 大規模画像上で既存のCNNアーキテクチャを学習するためのパッチグラディエントDescent(PatchGD)を提案する。
PatchGDは、画像全体の勾配ベースの更新を一度に実行する代わりに、画像の小さな部分のみでモデル更新を行うことで、優れたソリューションを実現することができる、という仮説に基づいている。
評価の結果,PatchGDは大きな画像を扱う際の標準勾配差法よりも安定かつ効率的であることがわかった。
- 参考スコア(独自算出の注目度): 13.969180905165533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional CNN models are trained and tested on relatively low resolution
images (<300 px), and cannot be directly operated on large-scale images due to
compute and memory constraints. We propose Patch Gradient Descent (PatchGD), an
effective learning strategy that allows to train the existing CNN architectures
on large-scale images in an end-to-end manner. PatchGD is based on the
hypothesis that instead of performing gradient-based updates on an entire image
at once, it should be possible to achieve a good solution by performing model
updates on only small parts of the image at a time, ensuring that the majority
of it is covered over the course of iterations. PatchGD thus extensively enjoys
better memory and compute efficiency when training models on large scale
images. PatchGD is thoroughly evaluated on two datasets - PANDA and UltraMNIST
with ResNet50 and MobileNetV2 models under different memory constraints. Our
evaluation clearly shows that PatchGD is much more stable and efficient than
the standard gradient-descent method in handling large images, and especially
when the compute memory is limited.
- Abstract(参考訳): 従来のCNNモデルは比較的低解像度の画像(300px)で訓練・テストされており、計算やメモリの制約により大規模画像では直接操作できない。
Patch Gradient Descent (PatchGD) は,既存のCNNアーキテクチャを大規模画像上でエンドツーエンドに学習できる効果的な学習戦略である。
PatchGDは、画像全体の勾配ベースの更新を一度に実行する代わりに、画像の小さな部分のみのモデル更新を一度に実行し、その大部分がイテレーション中にカバーされることを保証することによって、優れたソリューションを達成することができる、という仮説に基づいている。
したがって、PatchGDは大規模な画像のモデルをトレーニングする際に、メモリと計算効率が良くなる。
PatchGDは、異なるメモリ制約下でResNet50とMobileNetV2モデルを使用したPANDAとUltraMNISTの2つのデータセットで徹底的に評価されている。
評価の結果,PatchGDは大規模画像の処理において,特に計算メモリが制限された場合において,標準勾配差法よりも安定かつ効率的であることがわかった。
関連論文リスト
- Adaptive Patching for High-resolution Image Segmentation with Transformers [9.525013089622183]
注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。
我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
論文 参考訳(メタデータ) (2024-04-15T12:06:00Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - PatchDropout: Economizing Vision Transformers Using Patch Dropout [9.243684409949436]
入力画像パッチをランダムにドロップすることで、標準のViTモデルを高解像度で効率的に訓練できることを示す。
我々はPatchDropoutを使って計算とメモリの5倍の節約と性能の向上を観察する。
論文 参考訳(メタデータ) (2022-08-10T14:08:55Z) - Patch-Based Stochastic Attention for Image Editing [4.8201607588546]
PatchMatchアルゴリズムをベースとした,近接する近傍近傍の同定に有効なアテンション層を提案する。
画像インペイント, ガイド画像のカラー化, シングルイメージ超解像など, 画像編集作業におけるPSALの有用性を示す。
論文 参考訳(メタデータ) (2022-02-07T13:42:00Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Memory-efficient GAN-based Domain Translation of High Resolution 3D
Medical Images [0.15092198588928965]
GAN(Generative Adversarial Network)は大規模な3次元医療画像にはほとんど適用されない。
本研究は、未ペアドメイン翻訳を確立するためのマルチスケールパッチベースのGANアプローチを提案する。
ドメイン翻訳シナリオの評価は155x240x240の脳MRIと最大512x512x512の胸部CTで行う。
論文 参考訳(メタデータ) (2020-10-06T08:43:27Z) - Contextual Residual Aggregation for Ultra High-Resolution Image
Inpainting [12.839962012888199]
そこで本稿では,CRA(Contextual Residual Aggregation)機構を提案する。
CRA機構は、コンテキストパッチからの残基の重み付けにより、欠落した内容に対して高周波残基を生成する。
提案手法は,解像度512×512の小型画像に対して学習し,高解像度画像に対する推論を行い,良好な塗装品質を実現する。
論文 参考訳(メタデータ) (2020-05-19T18:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。