論文の概要: Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2403.08157v1
- Date: Wed, 13 Mar 2024 00:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:52.189703
- Title: Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks
- Title(参考訳): マルチスケール低周波メモリネットワークによる特徴抽出
畳み込みニューラルネットワークでは
- Authors: Fuzhi Wu, Jiasong Wu, Youyong Kong, Chunfeng Yang, Guanyu Yang,
Huazhong Shu, Guy Carrault, Lotfi Senhadji
- Abstract要約: 本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
- 参考スコア(独自算出の注目度): 13.815116154370834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning and Convolutional Neural Networks (CNNs) have driven major
transformations in diverse research areas. However, their limitations in
handling low-frequency information present obstacles in certain tasks like
interpreting global structures or managing smooth transition images. Despite
the promising performance of transformer structures in numerous tasks, their
intricate optimization complexities highlight the persistent need for refined
CNN enhancements using limited resources. Responding to these complexities, we
introduce a novel framework, the Multiscale Low-Frequency Memory (MLFM)
Network, with the goal to harness the full potential of CNNs while keeping
their complexity unchanged. The MLFM efficiently preserves low-frequency
information, enhancing performance in targeted computer vision tasks. Central
to our MLFM is the Low-Frequency Memory Unit (LFMU), which stores various
low-frequency data and forms a parallel channel to the core network. A key
advantage of MLFM is its seamless compatibility with various prevalent
networks, requiring no alterations to their original core structure. Testing on
ImageNet demonstrated substantial accuracy improvements in multiple 2D CNNs,
including ResNet, MobileNet, EfficientNet, and ConvNeXt. Furthermore, we
showcase MLFM's versatility beyond traditional image classification by
successfully integrating it into image-to-image translation tasks, specifically
in semantic segmentation networks like FCN and U-Net. In conclusion, our work
signifies a pivotal stride in the journey of optimizing the efficacy and
efficiency of CNNs with limited resources. This research builds upon the
existing CNN foundations and paves the way for future advancements in computer
vision. Our codes are available at https://github.com/AlphaWuSeu/ MLFM.
- Abstract(参考訳): ディープラーニングと畳み込みニューラルネットワーク(CNN)は、さまざまな研究領域において大きな変革を促している。
しかし、低周波情報を扱う際の制限は、グローバルな構造を解釈したり、スムーズなトランジション画像を管理するといったタスクにおいて障害となる。
多くのタスクにおいてトランスフォーマー構造の性能が期待できるにもかかわらず、その複雑な最適化の複雑さは、限られたリソースを使用した改良されたCNN拡張の必要性を浮き彫りにしている。
これらの複雑さに対応して、CNNの潜在能力を最大限活用し、その複雑さを一定に保ちつつ、新たなフレームワークであるMultiscale Low-Frequency Memory (MLFM) Networkを導入する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
MLFMの中心は低周波メモリユニット(LFMU)で、様々な低周波データを格納し、コアネットワークへの並列チャネルを形成する。
MLFMの鍵となる利点は、様々な一般的なネットワークとのシームレスな互換性であり、元のコア構造を変更する必要はないことである。
ImageNet上でのテストでは、ResNet、MobileNet、EfficientNet、ConvNeXtなど、複数の2D CNNで大幅に精度が向上した。
さらに,従来の画像分類を超えたMLFMの汎用性を,画像から画像への変換タスク,特にFCNやU-Netのようなセマンティックセグメンテーションネットワークにうまく組み込むことで示す。
結論として、我々の研究は、限られた資源でCNNの有効性と効率を最適化する過程における重要な歩みを示している。
この研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
私たちのコードはhttps://github.com/AlphaWuSeu/MLFM.comで公開されています。
関連論文リスト
- CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - TFDMNet: A Novel Network Structure Combines the Time Domain and
Frequency Domain Features [34.91485245048524]
本稿では、畳み込み層を置き換える新しい要素ワイド乗算層(EML)を提案する。
また、過度に適合する問題を緩和するための重み付け機構も導入する。
実験結果から,TFDMNetはMNIST, CIFAR-10, ImageNetデータベース上で優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-01-29T08:18:21Z) - Enhancing Small Object Encoding in Deep Neural Networks: Introducing
Fast&Focused-Net with Volume-wise Dot Product Layer [0.0]
我々は、小さなオブジェクトを固定長特徴ベクトルに符号化するのに適した、新しいディープニューラルネットワークアーキテクチャであるFast&Focused-Netを紹介する。
Fast&Focused-Netは、CNNのいくつかの固有の制限に対処するために設計された、新たに提案された一連のレイヤであるVDP(Volume-wise Dot Product)レイヤを採用しています。
CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, Fashion-MNISTなどのデータセットでは, オブジェクト分類タスクにおいて, ネットワークが最先端の手法よりも優れていた。
画像分類における変換器エンコーダ(ViT)と組み合わせた場合
論文 参考訳(メタデータ) (2024-01-18T09:31:25Z) - Revisiting Image Deblurring with an Efficient ConvNet [24.703240497171503]
本稿では,大規模な有効受容場(ERF)を特徴とする軽量CNNネットワークを提案する。
我々の鍵となる設計はLaKDと呼ばれる効率的なCNNブロックであり、大きなカーネル深さの畳み込みと空間チャネルの混合構造を備えている。
パラメータが32%少なく、MACが39%少ないデフォーカス/モーションデブロアリングベンチマークデータセット上で、最先端のRestormer上で+0.17dB / +0.43dB PSNRを達成する。
論文 参考訳(メタデータ) (2023-02-04T20:42:46Z) - MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in
Optical Remote Sensing Images [7.764449276074902]
MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。
MCTNetは既存の最先端CD法よりも優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T07:54:28Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CTCNet: A CNN-Transformer Cooperation Network for Face Image
Super-Resolution [64.06360660979138]
超解像課題に対する効率的なCNN-Transformer Cooperation Network (CTCNet)を提案する。
本稿ではまず,FSAUとTransformerブロックから構成されるLGCM(Local-Global Feature Cooperation Module)を考案した。
次に、エンコードされた機能を強化するために、効率的な機能リファインメントモジュール(FRM)を設計する。
論文 参考訳(メタデータ) (2022-04-19T06:38:29Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。