論文の概要: BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2407.17952v1
- Date: Thu, 25 Jul 2024 11:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:18:40.985511
- Title: BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
- Title(参考訳): BetterDepth:ゼロショット単眼深度推定のためのプラグアンドプレイ拡散精錬器
- Authors: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers,
- Abstract要約: BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件として取り込む条件拡散ベースの精錬機である。
小規模合成データセットの効率的なトレーニングにより、BetterDepthは最先端のゼロショットMDEパフォーマンスを実現する。
BetterDepthは、追加のトレーニングをすることなく、プラグイン・アンド・プレイで他のMDEモデルの性能を改善することができる。
- 参考スコア(独自算出の注目度): 25.047835960649167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.
- Abstract(参考訳): 大規模データセット上でのトレーニングにより、ゼロショット単眼深度推定(MDE)手法は、野生では堅牢な性能を示すが、正確な詳細が不十分な場合が多い。
拡散に基づく最近のMDE手法は、細部抽出能力に優れているが、多様なデータセットから堅牢な幾何学的先行性を得るのが困難であるため、幾何的に困難な場面に苦戦している。
両世界の相補的な利点を活用するため,精密な詳細を捉えつつ,幾何的に正しいアフィン不変のMDE性能を実現するためのBetterDepthを提案する。
具体的には、BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件付けとして、大域深度コンテキストを適切にキャプチャし、入力画像に基づいて詳細を反復的に洗練する条件拡散ベースの精錬機である。
このようなリファインダのトレーニングのために,細かなシーンの詳細を捉えながら深度条件付けにBetterDepthの忠実さを確保するために,グローバルな事前調整と局所パッチマスキング手法を提案する。
小規模の合成データセットの効率的なトレーニングにより、BetterDepthは、さまざまなパブリックデータセットとインザワイルドシーン上で、最先端のゼロショットMDEパフォーマンスを達成する。
さらに、BetterDepthは他のMDEモデルの性能を追加のトレーニングなしでプラグアンドプレイで改善することができる。
関連論文リスト
- Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model [34.85279074665031]
単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
我々は、ログスケールの深さパラメータ化などのいくつかの進歩を伴って、汎用的なタスクに依存しない拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:47Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Monocular Depth Estimation using Diffusion Models [39.27361388836347]
トレーニングデータにおけるノイズや不完全な深度マップに起因する問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
我々のDepthGenモデルは、屋内のNYUデータセット上で、および屋外のKITTIデータセット上でのSOTA結果に近いSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-02-28T18:08:21Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Dense Depth Distillation with Out-of-Distribution Simulated Images [30.79756881887895]
単分子深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討する。
KDは、訓練された教師モデルからそれを圧縮し、対象領域でのトレーニングデータを欠くことにより、現実世界の深度知覚タスクの軽量モデルを学ぶ。
提案手法は, トレーニング画像の1/6に留まらず, ベースラインKDのマージンが良好であり, 性能も若干向上していることを示す。
論文 参考訳(メタデータ) (2022-08-26T07:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。