論文の概要: Scale Equalization for Multi-Level Feature Fusion
- arxiv url: http://arxiv.org/abs/2402.01149v1
- Date: Fri, 2 Feb 2024 05:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:52:26.130226
- Title: Scale Equalization for Multi-Level Feature Fusion
- Title(参考訳): マルチレベル特徴融合のためのスケール等化
- Authors: Bum Jun Kim, Sang Woo Kim
- Abstract要約: 並列ブランチのマルチレベル機能は、異なるスケールにあることが分かりました。
スケール不均衡は普遍的かつ望ましくない欠陥であり、有害な勾配降下を引き起こす。
両線形アップサンプリング後のマルチレベル特徴量間でのスケール平衡を実現するために, スケール等化器の注入を提案する。
- 参考スコア(独自算出の注目度): 8.541075075344438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have exhibited remarkable performance in a variety of
computer vision fields, especially in semantic segmentation tasks. Their
success is often attributed to multi-level feature fusion, which enables them
to understand both global and local information from an image. However, we
found that multi-level features from parallel branches are on different scales.
The scale disequilibrium is a universal and unwanted flaw that leads to
detrimental gradient descent, thereby degrading performance in semantic
segmentation. We discover that scale disequilibrium is caused by bilinear
upsampling, which is supported by both theoretical and empirical evidence.
Based on this observation, we propose injecting scale equalizers to achieve
scale equilibrium across multi-level features after bilinear upsampling. Our
proposed scale equalizers are easy to implement, applicable to any
architecture, hyperparameter-free, implementable without requiring extra
computational cost, and guarantee scale equilibrium for any dataset.
Experiments showed that adopting scale equalizers consistently improved the
mIoU index across various target datasets, including ADE20K, PASCAL VOC 2012,
and Cityscapes, as well as various decoder choices, including UPerHead,
PSPHead, ASPPHead, SepASPPHead, and FCNHead.
- Abstract(参考訳): ディープニューラルネットワークは、様々なコンピュータビジョン分野、特にセマンティックセグメンテーションタスクにおいて顕著な性能を示した。
彼らの成功は、イメージからグローバル情報とローカル情報の両方を理解できるマルチレベル機能融合に起因することが多い。
しかし、並列ブランチのマルチレベル機能は異なるスケールにあることがわかった。
スケール不均衡は普遍的かつ望ましくない欠陥であり、有害な勾配降下を引き起こし、セマンティックセグメンテーションにおける性能を低下させる。
スケール不均衡は、理論的および実証的な証拠の両方によって支持される双線形アップサンプリングによって引き起こされる。
この観察に基づいて,双線形アップサンプリング後の多レベル特徴のスケール平衡を達成するために,スケールイコライザの注入を提案する。
提案するスケール等化器は実装が容易で,任意のアーキテクチャに適用可能で,ハイパーパラメータフリーで,余分な計算コストを要さず実装可能であり,データセットのスケール平衡を保証する。
UPerHead、PSPHead、ASPPHead、SepASPPHead、FCNHeadを含む様々なデコーダ選択と同様に、ADE20K、PASCAL VOC 2012、Cityscapesを含む様々なターゲットデータセットのmIoUインデックスを一貫して改善した。
関連論文リスト
- Implicit Grid Convolution for Multi-Scale Image Super-Resolution [6.8410780175245165]
我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。
本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
論文 参考訳(メタデータ) (2024-08-19T03:30:15Z) - Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。
本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。
MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文 参考訳(メタデータ) (2024-03-27T06:40:26Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。