論文の概要: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
- arxiv url: http://arxiv.org/abs/2502.20087v2
- Date: Wed, 26 Mar 2025 07:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:20.428590
- Title: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
- Title(参考訳): OverLoCK: コンテキストミキシング動的カーネルを備えたオーバービューファーストのLook-Closely-next ConvNet
- Authors: Meng Lou, Yizhou Yu,
- Abstract要約: We present OverLoCK, the first pure ConvNet backbone architecture which include a top-down attention mechanism。
トップダウンアテンションのパワーを完全に解き放つために,コンテクスト混合動的畳み込み(ContMix)を提案する。
- 参考スコア(独自算出の注目度): 50.42092879252807
- License:
- Abstract: Top-down attention plays a crucial role in the human vision system, wherein the brain initially obtains a rough overview of a scene to discover salient cues (i.e., overview first), followed by a more careful finer-grained examination (i.e., look closely next). However, modern ConvNets remain confined to a pyramid structure that successively downsamples the feature map for receptive field expansion, neglecting this crucial biomimetic principle. We present OverLoCK, the first pure ConvNet backbone architecture that explicitly incorporates a top-down attention mechanism. Unlike pyramid backbone networks, our design features a branched architecture with three synergistic sub-networks: 1) a Base-Net that encodes low/mid-level features; 2) a lightweight Overview-Net that generates dynamic top-down attention through coarse global context modeling (i.e., overview first); and 3) a robust Focus-Net that performs finer-grained perception guided by top-down attention (i.e., look closely next). To fully unleash the power of top-down attention, we further propose a novel context-mixing dynamic convolution (ContMix) that effectively models long-range dependencies while preserving inherent local inductive biases even when the input resolution increases, addressing critical limitations in existing convolutions. Our OverLoCK exhibits a notable performance improvement over existing methods. For instance, OverLoCK-T achieves a Top-1 accuracy of 84.2%, significantly surpassing ConvNeXt-B while using only around one-third of the FLOPs/parameters. On object detection, our OverLoCK-S clearly surpasses MogaNet-B by 1% in AP^b. On semantic segmentation, our OverLoCK-T remarkably improves UniRepLKNet-T by 1.7% in mIoU. Code is publicly available at https://rb.gy/wit4jh.
- Abstract(参考訳): トップダウン・アテンションは人間の視覚システムにおいて重要な役割を担い、脳は最初、より精巧なきめ細かな検査(すなわち、次によく見る)によって、聖なる手がかりを発見するシーンの粗大な概要を得る。
しかし、現代のConvNetは、この重要な生体模倣の原則を無視して、受容野の拡大のための特徴マップを連続的にダウンサンプルするピラミッド構造に限られている。
We present OverLoCK, the first pure ConvNet backbone architecture which include a top-down attention mechanism。
ピラミッドバックボーンネットワークとは異なり、我々の設計は3つのシナジスティックサブネットワークを持つ分岐アーキテクチャを特徴としている。
1) 低/中レベルの特徴を符号化するベースネット
2) 粗いグローバルコンテキストモデリング(すなわち、まず概要)を通して、動的トップダウンの注意を発生させる軽量な概要ネット。
3)トップダウンの注意によって導かれるよりきめ細かい知覚(すなわち、次によく見る)を行う堅牢なFocus-Net。
トップダウンアテンションのパワーを完全に解き放つために、入力解像度が増大しても固有の局所帰納バイアスを保ちながら、既存の畳み込みの限界に対処しながら、長距離依存を効果的にモデル化するコンテキスト混合動的畳み込み(ContMix)を提案する。
OverLoCKは既存のメソッドよりも顕著なパフォーマンス向上を実現しています。
例えば、OverLoCK-Tはトップ1の精度84.2%に達し、FLOP/パラメータの約3分の1しか使用せず、ConvNeXt-Bを大きく上回っている。
オブジェクト検出では、OverLoCK-Sが明らかにMogaNet-Bを1%上回っている。
セマンティックセグメンテーションでは、OverLoCK-TはUniRepLKNet-TをmIoUで1.7%改善しました。
コードはhttps://rb.gy/wit4jh.comで公開されている。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection [3.2586315449885106]
本稿では,Salient Object Detectionのために設計されたSODAWideNet++と呼ばれる新しいエンコーダ・デコーダ型ニューラルネットワークを提案する。
視覚変換器が初期からグローバルな受容場を得る能力に触発されて、注意誘導長距離特徴抽出(AGLRFE)モジュールを導入する。
ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。
論文 参考訳(メタデータ) (2024-08-29T15:51:06Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - GraftNet: Towards Domain Generalized Stereo Matching with a
Broad-Spectrum and Task-Oriented Feature [2.610470075814367]
ドメインシフトに対処するために、大規模データセットでトレーニングされたモデルの特徴を活用することを提案する。
コサインの類似性に基づくコストボリュームをブリッジとして、通常のコストアグリゲーションモジュールに移植する。
実験により、この広スペクトルおよびタスク指向機能によりモデル一般化能力を著しく改善できることが示されている。
論文 参考訳(メタデータ) (2022-04-01T03:10:04Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。