論文の概要: PreCM: The Padding-based Rotation Equivariant Convolution Mode for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.01624v1
- Date: Sun, 03 Nov 2024 16:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:48.439207
- Title: PreCM: The Padding-based Rotation Equivariant Convolution Mode for Semantic Segmentation
- Title(参考訳): PreCM: セマンティックセグメンテーションのためのパディングベースの回転同変畳み込みモード
- Authors: Xinyu Xu, Huazhen Liu, Huilin Xiong, Wenxian Yu, Tao Zhang,
- Abstract要約: 本稿では,パッド型回転同変畳み込みモード(PreCM)を数値的に構築する。
PreCMは、マルチスケールの画像や畳み込みカーネルだけでなく、複数の畳み込みを置き換えるための代替コンポーネントとしても使用できる。
実験により、PreCMベースのネットワークは、元のネットワークやデータ拡張ベースのネットワークよりもセグメンテーション性能が良いことを示した。
- 参考スコア(独自算出の注目度): 10.74841255987162
- License:
- Abstract: Semantic segmentation is an important branch of image processing and computer vision. With the popularity of deep learning, various deep semantic segmentation networks have been proposed for pixel-level classification and segmentation tasks. However, the imaging angles are often arbitrary in real world, such as water body images in remote sensing, and capillary and polyp images in medical field, and we usually cannot obtain prior orientation information to guide these networks to extract more effective features. Additionally, learning the features of objects with multiple orientation information is also challenging, as most CNN-based semantic segmentation networks do not have rotation equivariance to resist the disturbance from orientation information. To address the same, in this paper, we first establish a universal convolution-group framework to more fully utilize the orientation information and make the networks rotation equivariant. Then, we mathematically construct the padding-based rotation equivariant convolution mode (PreCM), which can be used not only for multi-scale images and convolution kernels, but also as a replacement component to replace multiple convolutions, like dilated convolution, transposed convolution, variable stride convolution, etc. In order to verify the realization of rotation equivariance, a new evaluation metric named rotation difference (RD) is finally proposed. The experiments carried out on the datesets Satellite Images of Water Bodies, DRIVE and Floodnet show that the PreCM-based networks can achieve better segmentation performance than the original and data augmentation-based networks. In terms of the average RD value, the former is 0% and the latter two are respectively 7.0503% and 3.2606%. Last but not least, PreCM also effectively enhances the robustness of networks to rotation perturbations.
- Abstract(参考訳): セマンティックセグメンテーションは画像処理とコンピュータビジョンの重要な分野である。
ディープラーニングの普及に伴い、ピクセルレベルの分類とセグメンテーションタスクのために、様々なディープセグメンテーションネットワークが提案されている。
しかし、リモートセンシングにおける水体画像や医療現場における毛細血管・ポリプ画像など、実世界では画像の角度は任意であり、これらのネットワークを誘導してより効果的な特徴を抽出することは通常不可能である。
さらに、CNNベースのセマンティックセグメンテーションネットワークは、方向情報からの乱れに抵抗する回転同値を持たないため、複数の方向情報を持つ物体の特徴を学習することも困難である。
そこで本稿では,まず指向情報をより完全に活用し,ネットワークの回転を均等にするための普遍的畳み込み群フレームワークを確立する。
次に, マルチスケール画像や畳み込みカーネルだけでなく, 拡張畳み込み, 転置畳み込み, 可変ストライド畳み込みなどの複数の畳み込みを置き換えるための代替部品として, パディングベース回転同変畳み込みモード(PreCM)を数学的に構築する。
回転等価性の実現を検証するため,回転差(RD)と呼ばれる新しい評価指標が提案されている。
これらの実験は,PreCMベースのネットワークが,オリジナルおよびデータ拡張ベースのネットワークよりもセグメンテーション性能を向上できることを示す。
平均RD値では、前者は0%、後者は7.0503%、後者は3.2606%である。
最後に、PreCMは、回転摂動に対するネットワークの堅牢性も効果的に強化する。
関連論文リスト
- Achieving Rotation Invariance in Convolution Operations: Shifting from Data-Driven to Mechanism-Assured [18.910817148765176]
本稿では、任意の回転に自然に不変な新しい畳み込み演算を設計する。
従来の回転不変畳み込みニューラルネットワーク(RI-CNN)と比較した。
RIConvsはトレーニングデータに制限がある場合,これらのCNNバックボーンの精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-04-17T12:21:57Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - Sorted Convolutional Network for Achieving Continuous Rotational
Invariance [56.42518353373004]
テクスチャ画像のハンドメイドな特徴に着想を得たSorting Convolution (SC)を提案する。
SCは、追加の学習可能なパラメータやデータ拡張を必要とせずに連続的な回転不変性を達成する。
以上の結果から, SCは, 上記の課題において, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-23T18:37:07Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Rotation Equivariant Feature Image Pyramid Network for Object Detection
in Optical Remote Sensing Imagery [39.25541709228373]
本稿では、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同変特徴像ピラミッドネットワーク(REFIPN)を提案する。
提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。
提案モデルの検出性能は2つの一般的な航空ベンチマークで検証される。
論文 参考訳(メタデータ) (2021-06-02T01:33:49Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Rotation Invariant Aerial Image Retrieval with Group Convolutional
Metric Learning [21.89786914625517]
本稿では,グループ畳み込みとアテンション機構とメトリック学習を組み合わせることで,航空画像を取得する新しい手法を提案する。
その結果,提案手法の性能は,ローテーション環境とオリジナル環境の両方において,他の最先端の検索手法を上回ることがわかった。
論文 参考訳(メタデータ) (2020-10-19T04:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。