論文の概要: Diffusion for Out-of-Distribution Detection on Road Scenes and Beyond
- arxiv url: http://arxiv.org/abs/2407.15739v1
- Date: Mon, 22 Jul 2024 15:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:20:51.532512
- Title: Diffusion for Out-of-Distribution Detection on Road Scenes and Beyond
- Title(参考訳): 道路シーンにおけるアウト・オブ・ディストリビューション検出のための拡散
- Authors: Silvio Galesso, Philipp Schröppel, Hssan Driss, Thomas Brox,
- Abstract要約: ADE20kデータセットをベースとしたADE-OoDベンチマークを導入し、セマンティック多様性の高いさまざまなドメインの画像を含む。
また,Diffusion score matching for OoD Detection (DOoD) を用いた新しい手法を提案する。
DOoDは、トレーニングやデータドメインの仮定にアウトレーヤを使わずに、最先端よりも同等かそれ以上の性能を発揮する。
- 参考スコア(独自算出の注目度): 27.17624199102808
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, research on out-of-distribution (OoD) detection for semantic segmentation has mainly focused on road scenes -- a domain with a constrained amount of semantic diversity. In this work, we challenge this constraint and extend the domain of this task to general natural images. To this end, we introduce: 1. the ADE-OoD benchmark, which is based on the ADE20k dataset and includes images from diverse domains with a high semantic diversity, and 2. a novel approach that uses Diffusion score matching for OoD detection (DOoD) and is robust to the increased semantic diversity. ADE-OoD features indoor and outdoor images, defines 150 semantic categories as in-distribution, and contains a variety of OoD objects. For DOoD, we train a diffusion model with an MLP architecture on semantic in-distribution embeddings and build on the score matching interpretation to compute pixel-wise OoD scores at inference time. On common road scene OoD benchmarks, DOoD performs on par or better than the state of the art, without using outliers for training or making assumptions about the data domain. On ADE-OoD, DOoD outperforms previous approaches, but leaves much room for future improvements.
- Abstract(参考訳): 近年、セマンティックセグメンテーションのためのアウト・オブ・ディストリビューション(OoD)検出の研究は、主に、セマンティックな多様性の制限された領域である道路シーンに焦点を当てている。
本研究では,この制約に挑戦し,その領域を一般の自然画像に拡張する。
以下に紹介する。
ADE20kデータセットをベースとしたADE-OoDベンチマークには,セマンティック多様性の高いさまざまなドメインの画像が含まれている。
2) OoD検出(DOoD)に拡散スコアマッチング(Diffusion score matching)を用いる新しいアプローチは,意味的多様性の増大に対して堅牢である。
ADE-OoDは、屋内および屋外のイメージを特徴とし、150のセマンティックカテゴリを分布内として定義し、様々なOoDオブジェクトを含んでいる。
DOoDでは,MDPアーキテクチャを用いた拡散モデルをセマンティック・イン・ディストリビューション・埋め込みに基づいて学習し,スコアマッチングの解釈に基づいて推定時刻に画素単位のOoDスコアを計算する。
一般的なロードシーンのOoDベンチマークでは、DOoDは、トレーニングやデータドメインに関する仮定にアウトレーヤを使わずに、最先端技術よりも同等かそれ以上のパフォーマンスを発揮する。
ADE-OoDでは、DOODは以前のアプローチよりも優れていますが、今後の改善の余地はたくさんあります。
関連論文リスト
- Diffuse-UDA: Addressing Unsupervised Domain Adaptation in Medical Image Segmentation with Appearance and Structure Aligned Diffusion Models [31.006056670998852]
3次元医用画像におけるvoxelレベルのアノテーションの欠如と複雑さは重要な課題である。
この格差は、医療における人工知能アルゴリズムの公平性に影響を与える。
医用画像セグメンテーションにおけるUnsupervised Domain Adaptation(UDA)に取り組むために拡散モデルを利用した新しい手法であるDiffuse-UDAを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:21:04Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - One-shot Unsupervised Domain Adaptation with Personalized Diffusion
Models [15.590759602379517]
ラベル付きソースドメインからターゲットドメインへのセグメンテーションモデルの適用は、ドメイン適応において最も難しい問題の1つである。
テキストと画像の拡散モデルを用いて、写真リアル画像を用いた合成ターゲットデータセットを生成する。
実験の結果,本手法は最先端OSUDA法を最大7.1%超えることがわかった。
論文 参考訳(メタデータ) (2023-03-31T14:16:38Z) - FIT: Frequency-based Image Translation for Domain Adaptive Object
Detection [8.635264598464355]
ドメイン適応オブジェクト検出(DAOD)のための新しい周波数ベース画像変換(FIT)フレームワークを提案する。
まず、ドメイン不変周波数成分を保持し、ドメイン固有周波数成分を交換することで、画像変換を行い、入力レベルでのドメインシフトを低減する。
第二に、階層的対角的特徴学習を用いて、特徴レベルでのドメインギャップをさらに緩和する。
論文 参考訳(メタデータ) (2023-03-07T07:30:08Z) - Raising the Bar on the Evaluation of Out-of-Distribution Detection [88.70479625837152]
我々は、知覚/視覚的・意味的類似性の概念をiDデータと微妙に異なる概念を用いて、OoDデータの2つのカテゴリを定義した。
iD データセットが与えられた2つのカテゴリそれぞれから OoD サンプルを生成するための GAN ベースのフレームワークを提案する。
従来のベンチマークで非常によく機能する最先端のOoD検出手法は,提案したベンチマークよりもはるかに堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-24T08:48:36Z) - Depth-Assisted ResiDualGAN for Cross-Domain Aerial Images Semantic
Segmentation [15.29253551096484]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ドメインギャップを最小化するためのアプローチである。
デジタルサーフェスモデル(DSM)は通常、ソースドメインとターゲットドメインの両方で利用可能である。
深度制御型ResiDualGAN (DRDG) を提案し, 深度制御型損失 (DCCL) を用いて生成モデルに深度情報をもたらす。
論文 参考訳(メタデータ) (2022-08-21T06:58:51Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual
Emotion Adaptation [85.20533077846606]
教師なしドメイン適応(UDA)は、あるラベル付きソースドメインで訓練されたモデルを別のラベル付きターゲットドメインに転送する問題を研究する。
本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。
本稿では,CycleEmotionGAN++と呼ばれる,エンドツーエンドのサイクル整合対向モデルを提案する。
論文 参考訳(メタデータ) (2020-11-25T01:31:01Z) - MADAN: Multi-source Adversarial Domain Aggregation Network for Domain
Adaptation [58.38749495295393]
ドメイン適応は、あるラベル付きソースドメインと、わずかにラベル付けまたはラベル付けされていないターゲットドメインの間のドメインシフトをブリッジするために、転送可能なモデルを学ぶことを目的としています。
近年のマルチソース領域適応法(MDA)では,ソースとターゲット間の画素レベルのアライメントは考慮されていない。
これらの課題に対処するための新しいMDAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T21:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。