論文の概要: Cycle Pixel Difference Network for Crisp Edge Detection
- arxiv url: http://arxiv.org/abs/2409.04272v2
- Date: Thu, 19 Dec 2024 15:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:26.767021
- Title: Cycle Pixel Difference Network for Crisp Edge Detection
- Title(参考訳): Crispエッジ検出のためのCycle Pixel差分ネットワーク
- Authors: Changsong Liu, Wei Zhang, Yanyan Liu, Mingyang Li, Wenlin Li, Yimeng Fan, Xiangnan Bai, Liang Zhang,
- Abstract要約: エッジ検出はコンピュータビジョンの基本課題である。
近年の深層学習手法は,1)大規模事前学習重量への依存,2)太いエッジの生成という2つの重大な課題に直面している。
CPD-Netと呼ばれるU字型エンコーダデコーダモデルを構築し、これら2つの問題に同時に対処する。
- 参考スコア(独自算出の注目度): 14.625034156501778
- License:
- Abstract: Edge detection, as a fundamental task in computer vision, has garnered increasing attention. The advent of deep learning has significantly advanced this field. However, recent deep learning-based methods generally face two significant issues: 1) reliance on large-scale pre-trained weights, and 2) generation of thick edges. We construct a U-shape encoder-decoder model named CPD-Net that successfully addresses these two issues simultaneously. In response to issue 1), we propose a novel cycle pixel difference convolution (CPDC), which effectively integrates edge prior knowledge with modern convolution operations, consequently successfully eliminating the dependence on large-scale pre-trained weights. As for issue 2), we construct a multi-scale information enhancement module (MSEM) and a dual residual connection-based (DRC) decoder to enhance the edge location ability of the model, thereby generating crisp and clean contour maps. Comprehensive experiments conducted on four standard benchmarks demonstrate that our method achieves competitive performance on the BSDS500 dataset (ODS=0.813 and AC=0.352), NYUD-V2 (ODS=0.760 and AC=0.223), BIPED dataset (ODS=0.898 and AC=0.426), and CID (ODS=0.59). Our approach provides a novel perspective for addressing these challenges in edge detection.
- Abstract(参考訳): エッジ検出はコンピュータビジョンの基本課題であり、注目を集めている。
ディープラーニングの出現はこの分野を大きく前進させた。
しかし、最近のディープラーニングベースの手法は、一般的に2つの重大な問題に直面している。
1)大規模事前訓練重量への依存、及び
2)太い縁の発生。
CPD-Netと呼ばれるU字型エンコーダデコーダモデルを構築し、これら2つの問題に同時に対処する。
第1号に対応して, エッジ事前知識と現代の畳み込み操作を効果的に統合し, 大規模事前学習重みへの依存を解消する新しいサイクル画素差分畳み込み(CPDC)を提案する。
第2号では,マルチスケール情報拡張モジュール(MSEM)とデュアル残差接続ベース(DRC)デコーダを構築し,モデルのエッジ位置を向上し,鮮明でクリーンな輪郭マップを生成する。
提案手法はBSDS500データセット(ODS=0.813とAC=0.352)、NYUD-V2(ODS=0.760とAC=0.223)、BIPEDデータセット(ODS=0.898とAC=0.426)、CID(ODS=0.59)の総合的な実験を行った。
我々のアプローチは、エッジ検出におけるこれらの課題に対処するための新しい視点を提供する。
関連論文リスト
- Learning to utilize image second-order derivative information for crisp edge detection [16.152236524867078]
エッジ検出はコンピュータビジョンの基本課題である。
最近のトップパフォーマンスエッジ検出手法は、厚くノイズの多いエッジラインを生成する傾向にある。
本稿では,モデルが真のエッジピクセルを正確に検出するのに役立つ2階微分型マルチスケールコンテキスト拡張モジュール(SDMCM)を提案する。
また、不均衡分布問題を軽減するために、ハイブリッド焦点損失関数(HFL)を構築した。
最後に、エッジ検出のためのSDMCMとBRMに基づくLUS-NetというU字型ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T13:25:02Z) - Edge Detectors Can Make Deep Convolutional Neural Networks More Robust [25.871767605100636]
本稿では、まずエッジ検出器をレイヤカーネルとして使用し、バイナリエッジ特徴分枝(BEFB)を設計し、バイナリエッジ特徴を学習する。
BEFB統合モデルの精度は、FGSM、PGD、C&W攻撃に直面する場合、すべてのデータセットのオリジナルのモデルよりも優れている。
本研究は,DCNNの形状的特徴とテクスチャ的特徴を組み合わせることで,DCNNの堅牢性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-02-26T10:54:26Z) - Practical Edge Detection via Robust Collaborative Learning [11.176517889212015]
エッジ検出は、幅広いビジョン指向タスクのコアコンポーネントである。
目標を達成するためには,2つの重要な問題に対処する必要がある。
非効率なトレーニング済みバックボーンからディープエッジモデルを緩和する方法。
トレーニングデータにおいて、ノイズや間違ったラベルからネガティブな影響を解放する方法。
論文 参考訳(メタデータ) (2023-08-27T12:12:27Z) - Introducing Depth into Transformer-based 3D Object Detection [24.224177932086455]
本稿では,カメラを用いた3次元検出のためのDepth-Aware Transformerフレームワークを提案する。
DATは,同じ設定下でnuScenes val上で+2.8 NDSを大幅に改善することを示す。
トレーニング済みのVoVNet-99をバックボーンとして使用する場合、DATはnuScenesテストで60.0 NDSと51.5 mAPの強い結果が得られる。
論文 参考訳(メタデータ) (2023-02-25T06:28:32Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。