論文の概要: iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency
- arxiv url: http://arxiv.org/abs/2407.07603v1
- Date: Wed, 10 Jul 2024 12:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 16:41:55.758721
- Title: iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency
- Title(参考訳): iANET: 効率的な長距離依存性のためのインセプションインスパイアされた注意ハイブリッドネットワーク
- Authors: Haruna Yunusa, Qin Shiyin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan,
- Abstract要約: iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。
基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。
各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of hybrid models has introduced another transformative approach to solving computer vision tasks, slowly shifting away from conventional CNN (Convolutional Neural Network) and ViT (Vision Transformer). However, not enough effort has been made to efficiently combine these two approaches to improve capturing long-range dependencies prevalent in complex images. In this paper, we introduce iiANET (Inception Inspired Attention Network), an efficient hybrid model designed to capture long-range dependencies in complex images. The fundamental building block, iiABlock, integrates global 2D-MHSA (Multi-Head Self-Attention) with Registers, MBConv2 (MobileNetV2-based convolution), and dilated convolution in parallel, enabling the model to adeptly leverage self-attention for capturing long-range dependencies while utilizing MBConv2 for effective local-detail extraction and dilated convolution for efficiently expanding the kernel receptive field to capture more contextual information. Lastly, we serially integrate an ECANET (Efficient Channel Attention Network) at the end of each iiABlock to calibrate channel-wise attention for enhanced model performance. Extensive qualitative and quantitative comparative evaluation on various benchmarks demonstrates improved performance over some state-of-the-art models.
- Abstract(参考訳): 最近のハイブリッドモデルの出現は、コンピュータビジョンタスクを解くための別の変革的アプローチを導入し、従来のCNN(Convolutional Neural Network)とViT(Vision Transformer)から徐々に離れている。
しかし、これらの2つのアプローチを効果的に組み合わせて、複雑な画像でよく見られる長距離依存関係のキャプチャを改善するのに十分な努力はなされていない。
本稿では,複雑な画像の長距離依存性を捕捉する効率的なハイブリッドモデルiANET(Inception Inspired Attention Network)を提案する。
基本的なビルディングブロックであるiiABlockは、グローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースのコンボリューション)、拡張されたコンボリューションと並列に統合することで、MBConv2を効果的な局所的な詳細抽出と拡張されたコンボリューションに利用し、カーネルの受容領域を効率的に拡張し、よりコンテキスト情報を取得することができる。
最後に、各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
様々なベンチマークにおける定性的および定量的比較評価は、いくつかの最先端モデルよりも改善された性能を示す。
関連論文リスト
- Dual-Hybrid Attention Network for Specular Highlight Removal [34.99543751199565]
画像やビデオの品質と解釈性を高めるため、マルチメディアアプリケーションにおいて特異ハイライト除去は重要な役割を担っている。
現在の最先端のアプローチは、しばしば追加の事前や監督に依存し、実用性と一般化能力を制限する。
本稿では、新しいハイブリッドアテンション機構を導入するエンドツーエンドネットワークであるDHAN-SHR(Dual-Hybrid Attention Network for Specular Highlightectomy)を提案する。
論文 参考訳(メタデータ) (2024-07-17T01:52:41Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for
SAR Target Classification [10.479559839534033]
本稿では,マルチブランチ構造に基づくマルチスケール受信フィールド(RF)を有するEMC2Aブロックを2つ提案し,効率的な異方性アーキテクチャであるDCNN,EMC2A-Netを設計した。
EMC2Aブロックは、異なる拡張レートの並列拡張畳み込みを利用して、計算負担を大幅に増大させることなく、マルチスケールのコンテキスト特徴を効果的にキャプチャすることができる。
本稿では,EMC2Aモジュールと呼ばれるマルチスケールのマルチチャネルアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-08-03T04:31:52Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。