論文の概要: DDP: Diffusion Model for Dense Visual Prediction
- arxiv url: http://arxiv.org/abs/2303.17559v2
- Date: Sat, 13 May 2023 11:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 22:48:05.610263
- Title: DDP: Diffusion Model for Dense Visual Prediction
- Title(参考訳): DDP:高密度視覚予測のための拡散モデル
- Authors: Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang
Liu, Tong Lu, Zhenguo Li, Ping Luo
- Abstract要約: 本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
- 参考スコア(独自算出の注目度): 71.55770562024782
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a simple, efficient, yet powerful framework for dense visual
predictions based on the conditional diffusion pipeline. Our approach follows a
"noise-to-map" generative paradigm for prediction by progressively removing
noise from a random Gaussian distribution, guided by the image. The method,
called DDP, efficiently extends the denoising diffusion process into the modern
perception pipeline. Without task-specific design and architecture
customization, DDP is easy to generalize to most dense prediction tasks, e.g.,
semantic segmentation and depth estimation. In addition, DDP shows attractive
properties such as dynamic inference and uncertainty awareness, in contrast to
previous single-step discriminative methods. We show top results on three
representative tasks with six diverse benchmarks, without tricks, DDP achieves
state-of-the-art or competitive performance on each task compared to the
specialist counterparts. For example, semantic segmentation (83.9 mIoU on
Cityscapes), BEV map segmentation (70.6 mIoU on nuScenes), and depth estimation
(0.05 REL on KITTI). We hope that our approach will serve as a solid baseline
and facilitate future research
- Abstract(参考訳): 本研究では,条件拡散パイプラインに基づく高密度視覚予測のための簡易かつ効率的かつ強力なフレームワークを提案する。
提案手法は,ランダムなガウス分布からノイズを段階的に除去して予測する「ノイズ・ツー・マップ」生成パラダイムに従う。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
タスク固有の設計とアーキテクチャのカスタマイズがなければ、DDPはセマンティックセグメンテーションや深さ推定といった最も密集した予測タスクに簡単に一般化できる。
さらにDDPは,従来の一段階判別法とは対照的に,動的推論や不確実性認識などの魅力的な特性を示す。
3つの代表的なタスクで,6つのベンチマークで上位結果を示し,トリックを伴わずに,ddpは各タスクの最高性能や競争性能を,専門家と比較した。
例えば、セマンティックセグメンテーション (83.9 mIoU on Cityscapes)、BEVマップセグメンテーション (70.6 mIoU on nuScenes)、深さ推定 (0.05 REL on KITTI) などがある。
私たちのアプローチが、堅固なベースラインとなり、将来の研究を促進することを願っています。
関連論文リスト
- OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving [15.331332063879342]
OccGenは3Dセマンティック占有予測のタスクのためのシンプルだが強力な生成知覚モデルである。
OccGenは'noise-to-occupancy'生成パラダイムを採用し、占有マップを徐々に推論し精錬する。
この生成パイプラインの重要な洞察は、拡散分解過程が高密度の3D占有マップの粗い微細化をモデル化できるということである。
論文 参考訳(メタデータ) (2024-04-23T13:20:09Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。