論文の概要: Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2510.07316v1
- Date: Wed, 08 Oct 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.693283
- Title: Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
- Title(参考訳): Semantics-Prompted Diffusion Transformerを用いた画素欠陥深さ
- Authors: Gangwei Xu, Haotong Lin, Hongcheng Luo, Xianqi Wang, Jingfeng Yao, Lianghui Zhu, Yuechuan Pu, Cheng Chi, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Sida Peng, Xin Yang,
- Abstract要約: Pixel-Perfect Depthはピクセル空間拡散生成に基づく単眼深度推定モデルである。
本モデルは,5つのベンチマークにおいて,すべての生成モデルの中で最高の性能を達成している。
- 参考スコア(独自算出の注目度): 45.701222598522456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Pixel-Perfect Depth, a monocular depth estimation model based on pixel-space diffusion generation that produces high-quality, flying-pixel-free point clouds from estimated depth maps. Current generative depth estimation models fine-tune Stable Diffusion and achieve impressive performance. However, they require a VAE to compress depth maps into latent space, which inevitably introduces \textit{flying pixels} at edges and details. Our model addresses this challenge by directly performing diffusion generation in the pixel space, avoiding VAE-induced artifacts. To overcome the high complexity associated with pixel-space generation, we introduce two novel designs: 1) Semantics-Prompted Diffusion Transformers (SP-DiT), which incorporate semantic representations from vision foundation models into DiT to prompt the diffusion process, thereby preserving global semantic consistency while enhancing fine-grained visual details; and 2) Cascade DiT Design that progressively increases the number of tokens to further enhance efficiency and accuracy. Our model achieves the best performance among all published generative models across five benchmarks, and significantly outperforms all other models in edge-aware point cloud evaluation.
- Abstract(参考訳): 本稿では,画素空間拡散生成に基づく単眼深度推定モデルであるPixel-Perfect Depthについて述べる。
現在の生成深度推定モデルによる微構造安定拡散と優れた性能の達成
しかし、VAEは奥行きマップを潜在空間に圧縮するために必要であり、これは必然的にエッジや詳細で \textit{flying pixels} を導入する。
我々のモデルは、VAEによる成果物を避けるため、画素空間で直接拡散生成を行うことにより、この問題に対処する。
画素空間生成に伴う複雑さを克服するために,2つの新しい設計を導入する。
1) 視覚基盤モデルからのセマンティック表現をDiTに組み込んだセマンティックス・プロンプト拡散変換器(SP-DiT)による拡散プロセスの促進により、微細な視覚的詳細性を高めつつ、グローバルなセマンティック一貫性を保ちながら、グローバルなセマンティック一貫性を維持する。
2) 効率と精度をさらに高めるため、トークンの数を段階的に増加させるカスケードDiT設計。
本モデルでは,5つのベンチマークにおいて,すべての生成モデルの中で最高の性能を達成し,エッジ・アウェア・ポイント・クラウド評価において,他のモデルを著しく上回っている。
関連論文リスト
- DiffPCN: Latent Diffusion Model Based on Multi-view Depth Images for Point Cloud Completion [63.89701893364156]
DiffPCN(DiffPCN)を提案する。
提案手法は, 粗い点雲を発生させる初期段階と, 品質を向上する改良段階の2段階からなる。
実験の結果,DiffPCNは幾何的精度と形状の完全性において最先端の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-28T08:05:43Z) - High-Precision Dichotomous Image Segmentation via Depth Integrity-Prior and Fine-Grained Patch Strategy [23.431898388115044]
高精細度画像から細粒度オブジェクトを抽出する作業として,DIS(High-precision Dichotomous Image segmentation)がある。
既存の方法はジレンマに直面し、非拡散法は効率的に機能するが、弱い意味論による誤検出や誤検出に悩まされる。
単眼深度推定モデルから擬似深度情報を得ると,本質的な意味理解が得られる。
論文 参考訳(メタデータ) (2025-03-08T07:02:28Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion [3.5940515868907164]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。