論文の概要: Large-batch Optimization for Dense Visual Predictions
- arxiv url: http://arxiv.org/abs/2210.11078v1
- Date: Thu, 20 Oct 2022 08:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:59:15.231529
- Title: Large-batch Optimization for Dense Visual Predictions
- Title(参考訳): 高密度視覚予測のための大規模バッチ最適化
- Authors: Zeyue Xue, Jianming Liang, Guanglu Song, Zhuofan Zong, Liang Chen, Yu
Liu, Ping Luo
- Abstract要約: 我々は,非常に大きなバッチサイズで高密度な視覚予測器を訓練するための適応勾配分散変調器 (AGVM) を提案する。
AGVMは、バックボーン、フィーチャーピラミッドネットワーク(FPN)、検出、セグメンテーションヘッドなど、密集した視覚予測器内の異なるモジュール間の勾配のばらつきを調整できる。
わずか3.5時間で10億個のパラメータを持つ物体検出器を訓練し、訓練時間を20.9倍にし、COCO上で62.2 mAPを達成する。
- 参考スコア(独自算出の注目度): 28.229216119624244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a large-scale deep neural network in a large-scale dataset is
challenging and time-consuming. The recent breakthrough of large-batch
optimization is a promising way to tackle this challenge. However, although the
current advanced algorithms such as LARS and LAMB succeed in classification
models, the complicated pipelines of dense visual predictions such as object
detection and segmentation still suffer from the heavy performance drop in the
large-batch training regime. To address this challenge, we propose a simple yet
effective algorithm, named Adaptive Gradient Variance Modulator (AGVM), which
can train dense visual predictors with very large batch size, enabling several
benefits more appealing than prior arts. Firstly, AGVM can align the gradient
variances between different modules in the dense visual predictors, such as
backbone, feature pyramid network (FPN), detection, and segmentation heads. We
show that training with a large batch size can fail with the gradient variances
misaligned among them, which is a phenomenon primarily overlooked in previous
work. Secondly, AGVM is a plug-and-play module that generalizes well to many
different architectures (e.g., CNNs and Transformers) and different tasks
(e.g., object detection, instance segmentation, semantic segmentation, and
panoptic segmentation). It is also compatible with different optimizers (e.g.,
SGD and AdamW). Thirdly, a theoretical analysis of AGVM is provided. Extensive
experiments on the COCO and ADE20K datasets demonstrate the superiority of
AGVM. For example, it can train Faster R-CNN+ResNet50 in 4 minutes without
losing performance. AGVM enables training an object detector with one billion
parameters in just 3.5 hours, reducing the training time by 20.9x, whilst
achieving 62.2 mAP on COCO. The deliverables are released at
https://github.com/Sense-X/AGVM.
- Abstract(参考訳): 大規模データセットにおける大規模ディープニューラルネットワークのトレーニングは、困難で時間がかかります。
最近の大規模バッチ最適化のブレークスルーは、この課題に取り組むための有望な方法である。
しかし、larsやlambといった現在の高度なアルゴリズムは分類モデルに成功しているが、オブジェクト検出やセグメンテーションといった複雑なビジュアル予測の複雑なパイプラインは、大規模訓練システムのパフォーマンス低下に依然として苦しめられている。
この課題に対処するために,適応勾配分散変調器(agvm,adaptive gradient variance modulationor,適応勾配分散変調器)という,簡便で効果的なアルゴリズムを提案する。
まず、AGVMはバックボーン、フィーチャーピラミッドネットワーク(FPN)、検出、セグメンテーションヘッドなど、密集した視覚予測器内の異なるモジュール間の勾配のばらつきを調整できる。
バッチサイズが大きいトレーニングでは,先行研究で主に見過ごされる現象である勾配分散がミスアライメントされ,失敗する可能性がある。
第二に、AGVMは様々なアーキテクチャ(CNNやTransformerなど)と異なるタスク(オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションなど)をうまく一般化するプラグイン・アンド・プレイモジュールである。
また、異なるオプティマイザ(SGDやAdamWなど)とも互換性がある。
第3に、AGVMの理論的解析を提供する。
COCOとADE20Kデータセットに関する大規模な実験は、AGVMの優位性を示している。
例えば、より高速なR-CNN+ResNet50を4分でトレーニングできます。
AGVMは、わずか3.5時間で10億個のパラメータを持つオブジェクト検出器をトレーニングすることができ、トレーニング時間を20.9倍削減し、COCO上で62.2 mAPを達成することができる。
deliverablesはhttps://github.com/sense-x/agvmでリリースされている。
関連論文リスト
- Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective [1.79487674052027]
本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実際、SDForestは非常に低コストで、CPUでもリアルタイムに実現できる。
論文 参考訳(メタデータ) (2024-09-03T12:34:23Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - On the Texture Bias for Few-Shot CNN Segmentation [21.349705243254423]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するために形状によって駆動される。
最近の証拠は、CNNのテクスチャバイアスが、大きなラベル付きトレーニングデータセットで学習するときに、より高いパフォーマンスのモデルを提供することを示している。
本稿では,特徴空間内の高周波局所成分を減衰させるために,ガウス差分(DoG)の集合を統合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-09T11:55:47Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。