論文の概要: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
- arxiv url: http://arxiv.org/abs/2502.20087v1
- Date: Thu, 27 Feb 2025 13:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:24.675746
- Title: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
- Title(参考訳): OverLoCK: コンテキストミキシング動的カーネルを備えたオーバービューファーストのLook-Closely-next ConvNet
- Authors: Meng Lou, Yizhou Yu,
- Abstract要約: 我々はアーキテクチャとミキサーの両方の観点から慎重に考案された、OverLoCKと呼ばれる新しい純粋なConvNetビジョンバックボーンを提案する。
具体的には、意味的に意味のある文脈表現を中層と深層に融合させるバイオミメティックなDeep-stage Decomposition Strategy (DDS)を導入する。
トップダウンコンテキストガイダンスのパワーを完全に解き放つために,新しいtextbfContext-textbfMixing Dynamic Convolution (ContMix) を提案する。
OverLoCKは既存のメソッドよりも顕著なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 50.42092879252807
- License:
- Abstract: In the human vision system, top-down attention plays a crucial role in perception, wherein the brain initially performs an overall but rough scene analysis to extract salient cues (i.e., overview first), followed by a finer-grained examination to make more accurate judgments (i.e., look closely next). However, recent efforts in ConvNet designs primarily focused on increasing kernel size to obtain a larger receptive field without considering this crucial biomimetic mechanism to further improve performance. To this end, we propose a novel pure ConvNet vision backbone, termed OverLoCK, which is carefully devised from both the architecture and mixer perspectives. Specifically, we introduce a biomimetic Deep-stage Decomposition Strategy (DDS) that fuses semantically meaningful context representations into middle and deep layers by providing dynamic top-down context guidance at both feature and kernel weight levels. To fully unleash the power of top-down context guidance, we further propose a novel \textbf{Cont}ext-\textbf{Mix}ing Dynamic Convolution (ContMix) that effectively models long-range dependencies while preserving inherent local inductive biases even when the input resolution increases. These properties are absent in previous convolutions. With the support from both DDS and ContMix, our OverLoCK exhibits notable performance improvement over existing methods. For instance, OverLoCK-T achieves a Top-1 accuracy of 84.2\%, significantly surpassing ConvNeXt-B while only using around one-third of the FLOPs/parameters. On object detection with Cascade Mask R-CNN, our OverLoCK-S surpasses MogaNet-B by a significant 1\% in AP$^b$. On semantic segmentation with UperNet, our OverLoCK-T remarkably improves UniRepLKNet-T by 1.7\% in mIoU. Code is publicly available at https://github.com/LMMMEng/OverLoCK.
- Abstract(参考訳): 人間の視覚システムにおいて、トップダウンの注意は知覚において重要な役割を担い、脳はまず全体的だが粗いシーン分析を行い、より正確な判断を行うためのよりきめ細かい検査を行う(すなわち、次によく見る)。
しかし、ConvNetの設計における最近の取り組みは、パフォーマンスをさらに向上させるこの決定的な生体模倣機構を考慮せずに、カーネルサイズを増大させ、より大きな受容領域を得ることに重点を置いている。
この目的のために、アーキテクチャとミキサーの両方の観点から慎重に考案された、OverLoCKと呼ばれる新しい純粋なConvNetビジョンバックボーンを提案する。
具体的には,バイオミメティックなDeep-stage Decomposition Strategy (DDS)を導入し,特徴量とカーネル重みレベルの動的トップダウンコンテキストガイダンスを提供することにより,意味的に意味のあるコンテキスト表現を中層と深層に融合させる。
トップダウンコンテキストガイダンスのパワーを完全に解き放つために、入力解像度が増大しても固有の局所帰納バイアスを保ちながら、長距離依存を効果的にモデル化する新しい「textbf{Cont}ext-\textbf{Mix}ing Dynamic Convolution」(ContMix)を提案する。
これらの性質は以前の畳み込みでは欠落している。
DDSとContMixの両方のサポートにより、OverLoCKは既存のメソッドよりも顕著なパフォーマンス改善を示しています。
例えば、OverLoCK-Tは84.2\%のTop-1精度を達成し、FLOP/パラメータの約3分の1しか使用せず、ConvNeXt-Bをはるかに上回っている。
Cascade Mask R-CNN によるオブジェクト検出では、OverLoCK-S が MogaNet-B を 1 % 上回っている。
UperNetとのセマンティックセグメンテーションでは、OverLoCK-TはmIoUでUniRepLKNet-Tを1.7\%改善しました。
コードはhttps://github.com/LMMMEng/OverLoCKで公開されている。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection [3.2586315449885106]
本稿では,Salient Object Detectionのために設計されたSODAWideNet++と呼ばれる新しいエンコーダ・デコーダ型ニューラルネットワークを提案する。
視覚変換器が初期からグローバルな受容場を得る能力に触発されて、注意誘導長距離特徴抽出(AGLRFE)モジュールを導入する。
ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。
論文 参考訳(メタデータ) (2024-08-29T15:51:06Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - GraftNet: Towards Domain Generalized Stereo Matching with a
Broad-Spectrum and Task-Oriented Feature [2.610470075814367]
ドメインシフトに対処するために、大規模データセットでトレーニングされたモデルの特徴を活用することを提案する。
コサインの類似性に基づくコストボリュームをブリッジとして、通常のコストアグリゲーションモジュールに移植する。
実験により、この広スペクトルおよびタスク指向機能によりモデル一般化能力を著しく改善できることが示されている。
論文 参考訳(メタデータ) (2022-04-01T03:10:04Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。