論文の概要: Dual-stream Network for Visual Recognition
- arxiv url: http://arxiv.org/abs/2105.14734v1
- Date: Mon, 31 May 2021 06:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:10:46.564297
- Title: Dual-stream Network for Visual Recognition
- Title(参考訳): 視覚認識のためのデュアルストリームネットワーク
- Authors: Mingyuan Mao, Renrui Zhang, Honghui Zheng, Peng Gao, Teli Ma, Yan
Peng, Errui Ding, Shumin Han
- Abstract要約: 本稿では、画像分類のための局所的およびグローバルなパターン特徴の表現能力を探索する汎用Dual-stream Network(DS-Net)を提案する。
我々のDS-Netは、細粒度と統合された機能を同時に計算し、それらを効率的に融合させることができる。
- 参考スコア(独自算出の注目度): 26.23838019591146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers with remarkable global representation capacities achieve
competitive results for visual tasks, but fail to consider high-level local
pattern information in input images. In this paper, we present a generic
Dual-stream Network (DS-Net) to fully explore the representation capacity of
local and global pattern features for image classification. Our DS-Net can
simultaneously calculate fine-grained and integrated features and efficiently
fuse them. Specifically, we propose an Intra-scale Propagation module to
process two different resolutions in each block and an Inter-Scale Alignment
module to perform information interaction across features at dual scales.
Besides, we also design a Dual-stream FPN (DS-FPN) to further enhance
contextual information for downstream dense predictions. Without bells and
whistles, the propsed DS-Net outperforms Deit-Small by 2.4% in terms of top-1
accuracy on ImageNet-1k and achieves state-of-the-art performance over other
Vision Transformers and ResNets. For object detection and instance
segmentation, DS-Net-Small respectively outperforms ResNet-50 by 6.4% and 5.5 %
in terms of mAP on MSCOCO 2017, and surpasses the previous state-of-the-art
scheme, which significantly demonstrates its potential to be a general backbone
in vision tasks. The code will be released soon.
- Abstract(参考訳): グローバルな表現能力を持つトランスフォーマーは視覚タスクの競合的な結果を得るが、入力画像の高レベルな局所パターン情報を考慮できない。
本稿では、画像分類のための局所的および大域的パターン特徴の表現能力をフルに検討するための汎用Dual-stream Network(DS-Net)を提案する。
ds-netは細粒度と統合度を同時に計算し,それらを効率的に融合することができる。
具体的には,各ブロック内の2つの異なる解像度を処理するイントラスケール伝搬モジュールと,2つのスケールで特徴間の情報インタラクションを行うイントラスケールアライメントモジュールを提案する。
さらに、下流密度予測のための文脈情報を強化するために、Dual-stream FPN (DS-FPN) も設計する。
ベルとホイッスルがなければ、DS-NetはImageNet-1kのトップ1の精度でDeit-Smallを2.4%上回り、他のVision TransformerやResNetよりも最先端のパフォーマンスを実現している。
オブジェクト検出とインスタンスセグメンテーションでは、DS-Net-Small は MSCOCO 2017 の mAP でそれぞれ ResNet-50 を6.4%、MSCOCO 2017 で 5.5 % で上回り、従来の最先端のスキームを抜いた。
コードはまもなくリリースされる。
関連論文リスト
- MVEB: Self-Supervised Learning with Multi-View Entropy Bottleneck [53.44358636312935]
自己監督的アプローチは、画像の2つのビューを入力と自己監督的信号の両方とみなす。
近年の研究では、ビュー間で共有されていない過剰な情報を捨てることにより、一般化が促進されることが示されている。
目的とする多視点エントロピー・ボトルネック(MVEB)を提案し,最小限の表現を効果的に学習する。
論文 参考訳(メタデータ) (2024-03-28T00:50:02Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - DC-Net: Divide-and-Conquer for Salient Object Detection [9.565256082366922]
そこで本研究では,Divide-and-ConquerをSalient Object Detection (SOD)タスクに導入し,Saliency Mapを予測するための事前知識をモデルが学習できるようにする。
我々は,2つのエンコーダを用いて,最終的なサリエンシマップを予測するための異なるサブタスクを解く新しいネットワークであるDivide-and-Conquer Network(DC-Net)を設計する。
論文 参考訳(メタデータ) (2023-05-24T09:49:25Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - DMSANet: Dual Multi Scale Attention Network [0.0]
我々は,最高の性能を達成するだけでなく,既存のモデルに比べてパラメータも少ない新しいアテンションモジュールを提案する。
私たちの注目モジュールは、軽量な性質のため、他の畳み込みニューラルネットワークと容易に統合できます。
論文 参考訳(メタデータ) (2021-06-13T10:31:31Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Towards Lossless Binary Convolutional Neural Networks Using Piecewise
Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。
しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。
完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文 参考訳(メタデータ) (2020-08-08T13:32:33Z) - MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed
Images [11.047174552053626]
MACU-Netは、マルチスケールのスキップ接続と非対称畳み込みベースのU-Netで、微細解像度のリモートセンシング画像を提供する。
本設計では,(1)低レベル・高レベルの特徴写像に含まれる意味的特徴と,(2)非対称な畳み込みブロックは,標準畳み込み層の特徴表現と特徴抽出能力を強化する。
2つのリモートセンシングデータセットで行った実験では、提案したMACU-NetがU-Net、U-NetPPL、U-Net 3+、その他のベンチマークアプローチを超越していることが示されている。
論文 参考訳(メタデータ) (2020-07-26T08:56:47Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。