論文の概要: iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency
- arxiv url: http://arxiv.org/abs/2407.07603v1
- Date: Wed, 10 Jul 2024 12:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-11 16:41:55.758721
- Title: iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency
- Title(参考訳): iANET: 効率的な長距離依存性のためのインセプションインスパイアされた注意ハイブリッドネットワーク
- Authors: Haruna Yunusa, Qin Shiyin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan,
- Abstract要約: iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。
基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。
各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of hybrid models has introduced another transformative approach to solving computer vision tasks, slowly shifting away from conventional CNN (Convolutional Neural Network) and ViT (Vision Transformer). However, not enough effort has been made to efficiently combine these two approaches to improve capturing long-range dependencies prevalent in complex images. In this paper, we introduce iiANET (Inception Inspired Attention Network), an efficient hybrid model designed to capture long-range dependencies in complex images. The fundamental building block, iiABlock, integrates global 2D-MHSA (Multi-Head Self-Attention) with Registers, MBConv2 (MobileNetV2-based convolution), and dilated convolution in parallel, enabling the model to adeptly leverage self-attention for capturing long-range dependencies while utilizing MBConv2 for effective local-detail extraction and dilated convolution for efficiently expanding the kernel receptive field to capture more contextual information. Lastly, we serially integrate an ECANET (Efficient Channel Attention Network) at the end of each iiABlock to calibrate channel-wise attention for enhanced model performance. Extensive qualitative and quantitative comparative evaluation on various benchmarks demonstrates improved performance over some state-of-the-art models.
- Abstract(参考訳): 最近のハイブリッドモデルの出現は、コンピュータビジョンタスクを解くための別の変革的アプローチを導入し、従来のCNN(Convolutional Neural Network)とViT(Vision Transformer)から徐々に離れている。
しかし、これらの2つのアプローチを効果的に組み合わせて、複雑な画像でよく見られる長距離依存関係のキャプチャを改善するのに十分な努力はなされていない。
本稿では,複雑な画像の長距離依存性を捕捉する効率的なハイブリッドモデルiANET(Inception Inspired Attention Network)を提案する。
基本的なビルディングブロックであるiiABlockは、グローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースのコンボリューション)、拡張されたコンボリューションと並列に統合することで、MBConv2を効果的な局所的な詳細抽出と拡張されたコンボリューションに利用し、カーネルの受容領域を効率的に拡張し、よりコンテキスト情報を取得することができる。
最後に、各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
様々なベンチマークにおける定性的および定量的比較評価は、いくつかの最先端モデルよりも改善された性能を示す。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - vGamba: Attentive State Space Bottleneck for efficient Long-range Dependencies in Visual Recognition [0.0]
状態空間モデル(SSM)は代替手段を提供するが、視界での応用は未定である。
この研究は、効率性と表現性を高めるために、SSMと注意機構を統合するハイブリッドビジョンバックボーンであるvGambaを導入している。
分類、検出、セグメンテーションタスクのテストでは、vGambaは精度と計算効率のトレードオフが優れており、既存のモデルよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-27T08:39:58Z) - Towards Efficient Model-Heterogeneity Federated Learning for Large Models [18.008063521900702]
モデル・ヘテロジニティ・フェデレーション・ラーニング(MHFL)に適した革新的微調整フレームワークであるHeteroTuneを紹介する。
特に,マルチブランチ・クロスモデルアグリゲータを用いたFedAdapterという,パラメータ効率の高いファインチューニング構造を提案する。
軽量なFedAdapterの利点は、計算オーバーヘッドと通信オーバーヘッドの両方を大幅に削減することにある。
論文 参考訳(メタデータ) (2024-11-25T09:58:51Z) - Dual-Hybrid Attention Network for Specular Highlight Removal [34.99543751199565]
画像やビデオの品質と解釈性を高めるため、マルチメディアアプリケーションにおいて特異ハイライト除去は重要な役割を担っている。
現在の最先端のアプローチは、しばしば追加の事前や監督に依存し、実用性と一般化能力を制限する。
本稿では、新しいハイブリッドアテンション機構を導入するエンドツーエンドネットワークであるDHAN-SHR(Dual-Hybrid Attention Network for Specular Highlightectomy)を提案する。
論文 参考訳(メタデータ) (2024-07-17T01:52:41Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Enhancing Once-For-All: A Study on Parallel Blocks, Skip Connections and
Early Exits [7.0895962209555465]
once-For-All (OFA) は、容易に適応可能なモデルを生成する能力によって特徴づけられるエコフレンドリーなアルゴリズムである。
OFAは、アーリーエグジット、並列ブロック、高密度スキップ接続を含むことで、アーキテクチャの観点から改善されている。
OFAAv2は、Tiny ImageNetデータセットの精度をOFAのオリジナルバージョンと比較して最大12.07%改善している。
論文 参考訳(メタデータ) (2023-02-03T17:53:40Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for
SAR Target Classification [10.479559839534033]
本稿では,マルチブランチ構造に基づくマルチスケール受信フィールド(RF)を有するEMC2Aブロックを2つ提案し,効率的な異方性アーキテクチャであるDCNN,EMC2A-Netを設計した。
EMC2Aブロックは、異なる拡張レートの並列拡張畳み込みを利用して、計算負担を大幅に増大させることなく、マルチスケールのコンテキスト特徴を効果的にキャプチャすることができる。
本稿では,EMC2Aモジュールと呼ばれるマルチスケールのマルチチャネルアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-08-03T04:31:52Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。