論文の概要: FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation
- arxiv url: http://arxiv.org/abs/2412.00671v2
- Date: Thu, 13 Mar 2025 20:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 15:33:20.356377
- Title: FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation
- Title(参考訳): FiffDepth:詳細な深さ推定のための拡散型発電機のフィードフォワード変換
- Authors: Yunpeng Bai, Qixing Huang,
- Abstract要約: FiffDepth という,効率的な単眼深度推定手法を提案する。
FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
- 参考スコア(独自算出の注目度): 31.06080108012735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular Depth Estimation (MDE) is a fundamental 3D vision problem with numerous applications such as 3D scene reconstruction, autonomous navigation, and AI content creation. However, robust and generalizable MDE remains challenging due to limited real-world labeled data and distribution gaps between synthetic datasets and real data. Existing methods often struggle with real-world test data with low efficiency, reduced accuracy, and lack of detail. To address these issues, we propose an efficient MDE approach named FiffDepth. The key feature of FiffDepth is its use of diffusion priors. It transforms diffusion-based image generators into a feed-forward architecture for detailed depth estimation. FiffDepth preserves key generative features and integrates the strong generalization capabilities of models like DINOv2. Through benchmark evaluations, we demonstrate that FiffDepth achieves exceptional accuracy, stability, and fine-grained detail, offering significant improvements in MDE performance against state-of-the-art MDE approaches. The paper's source code is available here: https://yunpeng1998.github.io/FiffDepth/
- Abstract(参考訳): 単眼深度推定(MDE)は、3Dシーン再構成、自律ナビゲーション、AIコンテンツ作成など、多くの応用において基本的な3D視覚問題である。
しかし、実世界のラベル付きデータと合成データセットと実データの分配ギャップが限られているため、堅牢で一般化可能なMDEは依然として困難である。
既存の手法は、効率が低く、精度が低下し、詳細が欠如している実世界のテストデータに苦しむことが多い。
これらの問題に対処するために,FiffDepth という名前の効率的なMDE手法を提案する。
FiffDepthの重要な特徴は拡散先行値の利用である。
拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
FiffDepthは重要な生成機能を保持し、DINOv2のようなモデルの強力な一般化機能を統合する。
ベンチマーク評価により、FiffDepthは例外的な精度、安定性、詳細性を達成し、最先端のMDEアプローチに対してMDE性能を大幅に改善することを示した。
論文のソースコードは以下の通りである。
関連論文リスト
- UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。
UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。
我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文 参考訳(メタデータ) (2025-02-27T14:03:15Z) - FOF-X: Towards Real-time Detailed Human Reconstruction from a Single Image [68.84221452621674]
本稿では,1枚の画像から詳細な人物形状をリアルタイムに再現するFOF-Xを提案する。
FOF-Xはテクスチャや照明による性能劣化を避ける。
FOFとメッシュ表現間の変換アルゴリズムをラプラシアン制約とオートマトンベース不連続整合器で拡張する。
論文 参考訳(メタデータ) (2024-12-08T14:46:29Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation [25.047835960649167]
BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件として取り込む条件拡散ベースの精錬機である。
BetterDepthは、さまざまな公開データセットと、その中のシーンで、最先端のゼロショットMDEパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-25T11:16:37Z) - ExactDreamer: High-Fidelity Text-to-3D Content Creation via Exact Score Matching [10.362259643427526]
現在のアプローチは、しばしば3次元合成のために事前訓練された2次元拡散モデルを適用する。
過剰な平滑化は、3Dモデルの高忠実度生成に重大な制限をもたらす。
LucidDreamer は SDS における Denoising Diffusion Probabilistic Model (DDPM) を Denoising Diffusion Implicit Model (DDIM) に置き換える
論文 参考訳(メタデータ) (2024-05-24T20:19:45Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。