論文の概要: DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection
- arxiv url: http://arxiv.org/abs/2401.02032v2
- Date: Tue, 9 Jan 2024 12:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:59:17.906142
- Title: DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection
- Title(参考訳): DiffusionEdge: Crispエッジ検出のための拡散確率モデル
- Authors: Yunfan Ye, Kai Xu, Yuhang Huang, Renjiao Yi, Zhiping Cai
- Abstract要約: 本稿では,DiffusionEdgeと呼ばれる汎用エッジ検出タスクに対する最初の拡散モデルを提案する。
最終的な性能を維持しつつ、高価な計算資源を避けるため、遅延空間にDPMを適用し、古典的なクロスエントロピー損失を可能にする。
すべての技術的設計で、DiffusionEdgeは限られたリソースで安定的にトレーニングすることができ、より少ない拡張戦略で、鮮明で正確なエッジマップを予測できる。
- 参考スコア(独自算出の注目度): 20.278655159290302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Limited by the encoder-decoder architecture, learning-based edge detectors
usually have difficulty predicting edge maps that satisfy both correctness and
crispness. With the recent success of the diffusion probabilistic model (DPM),
we found it is especially suitable for accurate and crisp edge detection since
the denoising process is directly applied to the original image size.
Therefore, we propose the first diffusion model for the task of general edge
detection, which we call DiffusionEdge. To avoid expensive computational
resources while retaining the final performance, we apply DPM in the latent
space and enable the classic cross-entropy loss which is uncertainty-aware in
pixel level to directly optimize the parameters in latent space in a
distillation manner. We also adopt a decoupled architecture to speed up the
denoising process and propose a corresponding adaptive Fourier filter to adjust
the latent features of specific frequencies. With all the technical designs,
DiffusionEdge can be stably trained with limited resources, predicting crisp
and accurate edge maps with much fewer augmentation strategies. Extensive
experiments on four edge detection benchmarks demonstrate the superiority of
DiffusionEdge both in correctness and crispness. On the NYUDv2 dataset,
compared to the second best, we increase the ODS, OIS (without post-processing)
and AC by 30.2%, 28.1% and 65.1%, respectively. Code:
https://github.com/GuHuangAI/DiffusionEdge.
- Abstract(参考訳): エンコーダ・デコーダアーキテクチャによって制限され、学習ベースのエッジ検出器は通常、正確さと不快さの両方を満たすエッジマップを予測するのが困難である。
拡散確率モデル (dpm) の最近の成功により, ノイズ化過程が原画像サイズに直接適用されるため, 高精度かつ鮮明なエッジ検出に適していることがわかった。
そこで本稿では,DiffusionEdgeと呼ばれる汎用エッジ検出タスクに対する最初の拡散モデルを提案する。
最終性能を保ちながら高価な計算資源を避けるため,DPMを潜水空間に適用し,画素レベルの不確実性を認識した古典的クロスエントロピー損失を有効にし,蒸留方法で潜水空間のパラメータを直接最適化する。
また,復調処理を高速化するために疎結合アーキテクチャを採用し,特定の周波数の潜伏特性を調整するための適応フーリエフィルタを提案する。
すべての技術設計で、DiffusionEdgeは限られたリソースで安定的にトレーニングすることができ、より少ない拡張戦略で、鮮明で正確なエッジマップを予測できる。
4つのエッジ検出ベンチマークの大規模な実験は、ディフュージョンEdgeの正確さと不快さの両方において優位性を示している。
NYUDv2データセットでは、ODS、OIS(後処理なし)、ACをそれぞれ30.2%、28.1%、65.1%増やす。
コード:https://github.com/GuHuangAI/DiffusionEdge。
関連論文リスト
- Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - UDHF2-Net: Uncertainty-diffusion-model-based High-Frequency TransFormer Network for Remotely Sensed Imagery Interpretation [12.24506241611653]
不確実拡散モデルに基づく高周波トランスフォーマーネットワーク(UDHF2-Net)が最初に提案される。
UDHF2-Netは空間定常非定常高周波接続パラダイム(SHCP)である
Mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) は自己指導型学習戦略である。
周波数ワイド半擬似半擬似UDHF2-Netは、変更検出の精度と複雑さのバランスをとるために提案された最初のものである。
論文 参考訳(メタデータ) (2024-06-23T15:03:35Z) - Learning to utilize image second-order derivative information for crisp edge detection [13.848361661516595]
エッジ検出はコンピュータビジョンの基本課題である。
最近のトップパフォーマンスエッジ検出手法は、厚くノイズの多いエッジラインを生成する傾向にある。
本稿では,モデルが真のエッジピクセルを正確に検出するのに役立つ2階微分型マルチスケールコンテキスト拡張モジュール(SDMCM)を提案する。
また、不均衡分布問題を軽減するために、ハイブリッド焦点損失関数(HFL)を構築した。
最後に、エッジ検出のためのSDMCMとBRMに基づくLUS-NetというU字型ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T13:25:02Z) - DiffusionPCR: Diffusion Models for Robust Multi-Step Point Cloud
Registration [73.37538551605712]
ポイントクラウド登録(PCR)は、2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では, PCR を拡散確率過程として定式化し, ノイズ変換を基礎的真理にマッピングする。
実験ではDiffusionPCRの有効性を示し,3Dおよび3DLoMatchに対する最先端の登録リコール率(95.3%/81.6%)を得た。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - EResFD: Rediscovery of the Effectiveness of Standard Convolution for
Lightweight Face Detection [13.357235715178584]
顔検出のための軽量バックボーンアーキテクチャとして,標準的な畳み込みブロックの有効性を再検討する。
チャネル切断された標準畳み込み層は精度と推論速度を向上できることを示す。
提案する検出器EResFDは,CPU上でのVGA画像推測に37.7msしか要しないWIDER FACE Hardサブセット上で80.4%のmAPを得た。
論文 参考訳(メタデータ) (2022-04-04T02:30:43Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。