論文の概要: Generative Edge Detection with Stable Diffusion
- arxiv url: http://arxiv.org/abs/2410.03080v1
- Date: Fri, 4 Oct 2024 01:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:56:19.566084
- Title: Generative Edge Detection with Stable Diffusion
- Title(参考訳): 安定拡散によるエッジ生成検出
- Authors: Caixia Zhou, Yaping Huang, Mochu Xiang, Jiahui Ren, Haibin Ling, Jing Zhang,
- Abstract要約: エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
- 参考スコア(独自算出の注目度): 52.870631376660924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Edge detection is typically viewed as a pixel-level classification problem mainly addressed by discriminative methods. Recently, generative edge detection methods, especially diffusion model based solutions, are initialized in the edge detection task. Despite great potential, the retraining of task-specific designed modules and multi-step denoising inference limits their broader applications. Upon closer investigation, we speculate that part of the reason is the under-exploration of the rich discriminative information encoded in extensively pre-trained large models (\eg, stable diffusion models). Thus motivated, we propose a novel approach, named Generative Edge Detector (GED), by fully utilizing the potential of the pre-trained stable diffusion model. Our model can be trained and inferred efficiently without specific network design due to the rich high-level and low-level prior knowledge empowered by the pre-trained stable diffusion. Specifically, we propose to finetune the denoising U-Net and predict latent edge maps directly, by taking the latent image feature maps as input. Additionally, due to the subjectivity and ambiguity of the edges, we also incorporate the granularity of the edges into the denoising U-Net model as one of the conditions to achieve controllable and diverse predictions. Furthermore, we devise a granularity regularization to ensure the relative granularity relationship of the multiple predictions. We conduct extensive experiments on multiple datasets and achieve competitive performance (\eg, 0.870 and 0.880 in terms of ODS and OIS on the BSDS test dataset).
- Abstract(参考訳): エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
近年、エッジ検出タスクにおいて、生成エッジ検出方法、特に拡散モデルに基づく解が初期化されている。
大きな可能性にもかかわらず、タスク固有の設計モジュールの再トレーニングと多段階の推論は、より広範なアプリケーションを制限する。
より詳しく調べると、その理由の一部は、広範囲に事前訓練された大規模モデル(安定拡散モデル)で符号化されたリッチな識別情報の探索不足にあると推測する。
そこで我々は,事前学習した安定拡散モデルのポテンシャルを十分に活用して,GED(Generative Edge Detector)という新しい手法を提案する。
我々のモデルは、事前訓練された安定拡散によって得られる豊富な高レベルかつ低レベルの事前知識により、特定のネットワーク設計なしで効率的に訓練および推論することができる。
具体的には、遅延画像特徴写像を入力として、デノイングU-Netを微調整し、遅延エッジマップを直接予測することを提案する。
さらに、エッジの主観性と曖昧さから、エッジの粒度をデノナイズドU-Netモデルに組み込んで制御可能かつ多様な予測を行う。
さらに、複数の予測の相対的な粒度関係を確保するために、粒度正規化を考案する。
我々は、複数のデータセットに対して広範な実験を行い、競争性能を達成する(BSDSテストデータセット上でのODSとOISの観点からは、0.870、0.880)。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Practical Edge Detection via Robust Collaborative Learning [11.176517889212015]
エッジ検出は、幅広いビジョン指向タスクのコアコンポーネントである。
目標を達成するためには,2つの重要な問題に対処する必要がある。
非効率なトレーニング済みバックボーンからディープエッジモデルを緩和する方法。
トレーニングデータにおいて、ノイズや間違ったラベルからネガティブな影響を解放する方法。
論文 参考訳(メタデータ) (2023-08-27T12:12:27Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Vacant Holes for Unsupervised Detection of the Outliers in Compact
Latent Representation [0.6091702876917279]
現実世界にデプロイされ、運用される機械学習モデルにとって、アウトレーヤの検出は重要なものだ。
本研究では,これらのモデルの特定のタイプに焦点をあてる: 変分オートエンコーダ(VAE)。
論文 参考訳(メタデータ) (2023-06-16T06:21:48Z) - Do Bayesian Variational Autoencoders Know What They Don't Know? [0.6091702876917279]
OoD(Out-of-Distribution)入力を検出する問題は、ディープニューラルネットワークにとって最重要課題である。
入力の密度を推定できる深部生成モデルでさえ、信頼できない可能性があることが以前に示されている。
本稿では,マルコフ連鎖モンテカルロ,バックプロパゲーションによるベイズ勾配,およびウェイト平均ガウスの3つの推論手法について検討する。
論文 参考訳(メタデータ) (2022-12-29T11:48:01Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Ramifications of Approximate Posterior Inference for Bayesian Deep
Learning in Adversarial and Out-of-Distribution Settings [7.476901945542385]
ベイジアン深層学習モデルが従来のニューラルネットワークよりわずかに優れていることを示す。
予備的な調査は、初期化、アーキテクチャ、アクティベーション関数の選択によるバイアスの潜在的固有の役割を示している。
論文 参考訳(メタデータ) (2020-09-03T16:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。