論文の概要: PreCM: The Padding-based Rotation Equivariant Convolution Mode for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.01624v2
- Date: Wed, 30 Apr 2025 05:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.115851
- Title: PreCM: The Padding-based Rotation Equivariant Convolution Mode for Semantic Segmentation
- Title(参考訳): PreCM: セマンティックセグメンテーションのためのパディングベースの回転同変畳み込みモード
- Authors: Xinyu Xu, Huazhen Liu, Tao Zhang, Huilin Xiong, Wenxian Yu,
- Abstract要約: 本稿では、指向情報をより完全に活用することを目的とした、普遍的な畳み込みグループフレームワークを提案する。
次に、数学的にパディングベースの回転同変畳み込みモード(PreCM)を設計する。
意味的セグメンテーションタスクにおける画像回転の影響を定量的に評価するために,新たな評価指標である回転差(RD)を提案する。
- 参考スコア(独自算出の注目度): 10.748412559871621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is an important branch of image processing and computer vision. With the popularity of deep learning, various convolutional neural networks have been proposed for pixel-level classification and segmentation tasks. In practical scenarios, however, imaging angles are often arbitrary, encompassing instances such as water body images from remote sensing and capillary and polyp images in the medical domain, where prior orientation information is typically unavailable to guide these networks to extract more effective features. In this case, learning features from objects with diverse orientation information poses a significant challenge, as the majority of CNN-based semantic segmentation networks lack rotation equivariance to resist the disturbance from orientation information. To address this challenge, this paper first constructs a universal convolution-group framework aimed at more fully utilizing orientation information and equipping the network with rotation equivariance. Subsequently, we mathematically design a padding-based rotation equivariant convolution mode (PreCM), which is not only applicable to multi-scale images and convolutional kernels but can also serve as a replacement component for various types of convolutions, such as dilated convolutions, transposed convolutions, and asymmetric convolution. To quantitatively assess the impact of image rotation in semantic segmentation tasks, we also propose a new evaluation metric, Rotation Difference (RD). The replacement experiments related to six existing semantic segmentation networks on three datasets show that, the average Intersection Over Union (IOU) of their PreCM-based versions respectively improve 6.91%, 10.63%, 4.53%, 5.93%, 7.48%, 8.33% compared to their original versions in terms of random angle rotation. And the average RD values are decreased by 3.58%, 4.56%, 3.47%, 3.66%, 3.47%, 3.43% respectively.
- Abstract(参考訳): セマンティックセグメンテーションは画像処理とコンピュータビジョンの重要な分野である。
ディープラーニングの普及に伴い、ピクセルレベルの分類とセグメンテーションタスクのために、様々な畳み込みニューラルネットワークが提案されている。
しかし、現実的なシナリオでは、画像の角度は任意であり、リモートセンシングや毛細血管画像、医療領域のポリプ画像など、これらのネットワークを誘導してより効果的な特徴を抽出する事前の配向情報は利用できない。
このケースでは、CNNベースのセマンティックセグメンテーションネットワークの大部分では、方向情報からの乱れに抵抗する回転同値が欠如しているため、多様な向き情報を持つ物体からの学習特徴が大きな課題となる。
この課題に対処するために、まず指向情報をより完全に活用し、ネットワークに回転同値性を持たせることを目的とした、普遍的な畳み込みグループフレームワークを構築した。
その後,多スケール画像や畳み込みカーネルに適用可能なパディングベース回転同変畳み込みモード(PreCM)を数学的に設計し,拡張畳み込み,転置畳み込み,非対称畳み込みなどの様々な種類の畳み込みの代替部品として機能する。
意味的セグメンテーションタスクにおける画像回転の影響を定量的に評価するために,新たな評価指標である回転差(RD)を提案する。
3つのデータセット上の6つの既存のセマンティックセグメンテーションネットワークに関する置換実験は、それぞれのPreCMベースのバージョンの平均インターセクション・オーバー・ユニオン(IOU)が、ランダム角回転の点で元のバージョンに比べて6.91%、10.63%、4.53%、5.93%、7.48%、8.33%改善していることを示している。
また、平均RD値は3.58%、4.56%、3.47%、3.66%、3.47%、および3.43%減少する。
関連論文リスト
- Achieving Rotation Invariance in Convolution Operations: Shifting from Data-Driven to Mechanism-Assured [18.910817148765176]
本稿では、任意の回転に自然に不変な新しい畳み込み演算を設計する。
従来の回転不変畳み込みニューラルネットワーク(RI-CNN)と比較した。
RIConvsはトレーニングデータに制限がある場合,これらのCNNバックボーンの精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-04-17T12:21:57Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - Sorted Convolutional Network for Achieving Continuous Rotational
Invariance [56.42518353373004]
テクスチャ画像のハンドメイドな特徴に着想を得たSorting Convolution (SC)を提案する。
SCは、追加の学習可能なパラメータやデータ拡張を必要とせずに連続的な回転不変性を達成する。
以上の結果から, SCは, 上記の課題において, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-23T18:37:07Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Moving Frame Net: SE(3)-Equivariant Network for Volumes [0.0]
移動フレームアプローチに基づく画像データのための回転・変換同変ニューラルネットワークを提案する。
入力段階において、移動フレームの計算を1つに減らし、そのアプローチを大幅に改善する。
我々の訓練されたモデルは、MedMNIST3Dの試験されたデータセットの大部分の医療ボリューム分類において、ベンチマークを上回ります。
論文 参考訳(メタデータ) (2022-11-07T10:25:38Z) - Omni-Seg+: A Scale-aware Dynamic Network for Pathological Image
Segmentation [13.182646724406291]
糸球体の断面領域は、管周囲の毛細血管の64倍の大きさである。
マルチオブジェクト(6つの組織型)とマルチスケール(5Xから40Xスケール)の画像セグメンテーションを実現する,スケール対応の動的ニューラルネットワークであるOmni-Seg+ネットワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T21:09:55Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - Rotation Equivariant Feature Image Pyramid Network for Object Detection
in Optical Remote Sensing Imagery [39.25541709228373]
本稿では、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同変特徴像ピラミッドネットワーク(REFIPN)を提案する。
提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。
提案モデルの検出性能は2つの一般的な航空ベンチマークで検証される。
論文 参考訳(メタデータ) (2021-06-02T01:33:49Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Learning Equivariant Representations [10.745691354609738]
畳み込みニューラルネットワーク(CNN)はこの原理の成功例である。
対称性の群で定義される異なる変換に対する同変モデルを提案する。
これらのモデルはデータの対称性を利用して、サンプルとモデルの複雑さを減らし、一般化性能を向上させる。
論文 参考訳(メタデータ) (2020-12-04T18:46:17Z) - Rotation Invariant Aerial Image Retrieval with Group Convolutional
Metric Learning [21.89786914625517]
本稿では,グループ畳み込みとアテンション機構とメトリック学習を組み合わせることで,航空画像を取得する新しい手法を提案する。
その結果,提案手法の性能は,ローテーション環境とオリジナル環境の両方において,他の最先端の検索手法を上回ることがわかった。
論文 参考訳(メタデータ) (2020-10-19T04:12:36Z) - A Rotation-Invariant Framework for Deep Point Cloud Analysis [132.91915346157018]
ネットワーク入力時に一般的な3次元カルト座標を置き換えるために,新しい低レベル純粋回転不変表現を導入する。
また,これらの表現を特徴に組み込むネットワークアーキテクチャを提案し,点とその近傍の局所的関係とグローバルな形状構造を符号化する。
本手法は, 形状分類, 部分分割, 形状検索を含む多点雲解析タスクにおいて評価する。
論文 参考訳(メタデータ) (2020-03-16T14:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。