論文の概要: InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions
- arxiv url: http://arxiv.org/abs/2211.05778v4
- Date: Mon, 17 Apr 2023 11:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 23:25:40.385936
- Title: InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions
- Title(参考訳): internimage: 変形可能な畳み込みによる大規模ビジョン基盤モデルの検討
- Authors: Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou
Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao
- Abstract要約: この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
- 参考スコア(独自算出の注目度): 95.94629864981091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to the great progress of large-scale vision transformers (ViTs) in
recent years, large-scale models based on convolutional neural networks (CNNs)
are still in an early state. This work presents a new large-scale CNN-based
foundation model, termed InternImage, which can obtain the gain from increasing
parameters and training data like ViTs. Different from the recent CNNs that
focus on large dense kernels, InternImage takes deformable convolution as the
core operator, so that our model not only has the large effective receptive
field required for downstream tasks such as detection and segmentation, but
also has the adaptive spatial aggregation conditioned by input and task
information. As a result, the proposed InternImage reduces the strict inductive
bias of traditional CNNs and makes it possible to learn stronger and more
robust patterns with large-scale parameters from massive data like ViTs. The
effectiveness of our model is proven on challenging benchmarks including
ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved
a new record 65.4 mAP on COCO test-dev and 62.9 mIoU on ADE20K, outperforming
current leading CNNs and ViTs. The code will be released at
https://github.com/OpenGVLab/InternImage.
- Abstract(参考訳): 近年の大規模な視覚変換器(ViT)の進歩と比較して、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルはまだ初期段階にある。
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
大規模高密度カーネルに焦点を当てた最近のcnnとは異なり、internimage はコア演算子として変形可能な畳み込みを取り、検出やセグメンテーションといった下流タスクに必要な大きな効果的な受容場を持つだけでなく、入力やタスク情報によって条件付けられた適応的な空間集約を持つ。
その結果,従来のcnnの厳密なインダクティブバイアスを低減し,vitsのような大規模データから大規模パラメータを持つ強固で堅牢なパターンを学習することができる。
このモデルの有効性は、ImageNet、COCO、ADE20Kといった挑戦的なベンチマークで証明されている。
なお、InternImage-HはCOCOテストデブで65.4 mAP、ADE20Kで62.9 mIoUを達成し、現在のCNNやViTよりも優れていた。
コードはhttps://github.com/OpenGVLab/InternImageで公開される。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Lightweight Real-time Semantic Segmentation Network with Efficient
Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。
LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。
挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-02-21T07:16:53Z) - ConvFormer: Closing the Gap Between CNN and Vision Transformers [12.793893108426742]
複数のカーネルサイズで入力画像の異なるパターンをキャプチャするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
ConvFormerは、様々なタスクにおいて、同様の大きさの視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)より優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T06:45:01Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - On the Performance of Convolutional Neural Networks under High and Low
Frequency Information [13.778851745408133]
画像の高周波・低周波情報に対するCNNモデルの性能について検討する。
トレーニング中のフィルタリングに基づくデータ拡張を提案する。
堅牢性と低周波の一般化の観点から,良好な性能向上が観察されている。
論文 参考訳(メタデータ) (2020-10-30T17:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。