論文の概要: Reversible Column Networks
- arxiv url: http://arxiv.org/abs/2212.11696v1
- Date: Thu, 22 Dec 2022 13:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:53:33.660995
- Title: Reversible Column Networks
- Title(参考訳): 可逆列ネットワーク
- Authors: Yuxuan Cai, Yizhuang Zhou, Qi Han, Jianjian Sun, Xiangwen Kong, Jun
Li, Xiangyu Zhang
- Abstract要約: RevCol(Reversible Column Network)は、ニューラルネットワークの設計パラダイムである。
CNNスタイルのRevColモデルは、コンピュータビジョンタスクにおいて非常に競争力のあるパフォーマンスを達成することができる。
RevColは変換器や他のニューラルネットワークにも導入できる。
- 参考スコア(独自算出の注目度): 13.385421619753227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new neural network design paradigm Reversible Column Network
(RevCol). The main body of RevCol is composed of multiple copies of
subnetworks, named columns respectively, between which multi-level reversible
connections are employed. Such architectural scheme attributes RevCol very
different behavior from conventional networks: during forward propagation,
features in RevCol are learned to be gradually disentangled when passing
through each column, whose total information is maintained rather than
compressed or discarded as other network does. Our experiments suggest that
CNN-style RevCol models can achieve very competitive performances on multiple
computer vision tasks such as image classification, object detection and
semantic segmentation, especially with large parameter budget and large
dataset. For example, after ImageNet-22K pre-training, RevCol-XL obtains 88.2%
ImageNet-1K accuracy. Given more pre-training data, our largest model RevCol-H
reaches 90.0% on ImageNet-1K, 63.8% APbox on COCO detection minival set, 61.0%
mIoU on ADE20k segmentation. To our knowledge, it is the best COCO detection
and ADE20k segmentation result among pure (static) CNN models. Moreover, as a
general macro architecture fashion, RevCol can also be introduced into
transformers or other neural networks, which is demonstrated to improve the
performances in both computer vision and NLP tasks. We release code and models
at https://github.com/megvii-research/RevCol
- Abstract(参考訳): 本稿では,新しいニューラルネットワーク設計パラダイムであるReversible Column Network (RevCol)を提案する。
RevColの本体はサブネットの複数のコピーで構成されており、その間に複数レベルの可逆接続が使われている。
前方伝播の間、revocolの特徴は、他のネットワークのように圧縮されたり破棄されたりするのではなく、全情報が維持される各カラムを通過すると徐々に不連続になるように学習される。
本研究では,画像分類,オブジェクト検出,意味セグメンテーションといった複数のコンピュータビジョンタスクにおいて,cnnスタイルのrevcolモデルが非常に競争力のある性能を実現することを示唆する。
例えば、ImageNet-22Kの事前トレーニングの後、RevCol-XLは88.2%のImageNet-1Kの精度を得る。
事前トレーニングデータが増えると、当社最大のモデルであるRevCol-HはImageNet-1Kで90.0%、COCO検出ミニバルセットで63.8%、ADE20kセグメンテーションで61.0%となる。
我々の知る限り、純粋な(静的)CNNモデルの中ではCOCO検出とADE20kセグメンテーションの結果が最も優れている。
さらに、一般的なマクロアーキテクチャの手法として、RevColはトランスフォーマーや他のニューラルネットワークにも導入することができ、コンピュータビジョンとNLPタスクの両方のパフォーマンスを改善することが実証されている。
コードとモデルはhttps://github.com/megvii-research/revcolでリリースします。
関連論文リスト
- Using DUCK-Net for Polyp Image Segmentation [0.0]
DUCK-Netは、少量の医療画像から効果的に学習し、一般化し、正確なセグメンテーションタスクを実行することができる。
大腸内視鏡画像におけるポリープセグメンテーションに特有な機能を示す。
論文 参考訳(メタデータ) (2023-11-03T20:58:44Z) - RevColV2: Exploring Disentangled Representations in Masked Image
Modeling [12.876864261893909]
Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして広く使われており、有望なパフォーマンスを実現している。
既存のMIMメソッドは、ダウンストリームアプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらす。
本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。
論文 参考訳(メタデータ) (2023-09-02T18:41:27Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Recurrence along Depth: Deep Convolutional Neural Networks with
Recurrent Layer Aggregation [5.71305698739856]
本稿では,従来のレイヤからの情報を再利用して,現在のレイヤの特徴をよりよく抽出する方法を説明するために,レイヤアグリゲーションの概念を紹介する。
我々は,深層CNNにおける層構造を逐次的に利用することにより,RLA(recurrent layer aggregate)と呼ばれる非常に軽量なモジュールを提案する。
私たちのRLAモジュールは、ResNets、Xception、MobileNetV2など、多くの主要なCNNと互換性があります。
論文 参考訳(メタデータ) (2021-10-22T15:36:33Z) - Single-stream CNN with Learnable Architecture for Multi-source Remote
Sensing Data [16.810239678639288]
マルチソースリモートセンシングデータ共同分類のための,深層畳み込みニューラルネットワーク(CNN)に基づく効率的なフレームワークを提案する。
提案手法は,最新のCNNモデルを任意のマルチソースリモートセンシングデータセットに理論的に調整することができる。
実験により,提案したシングルストリームCNNの有効性が示された。
論文 参考訳(メタデータ) (2021-09-13T16:10:41Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。