論文の概要: GRIN: Zero-Shot Metric Depth with Pixel-Level Diffusion
- arxiv url: http://arxiv.org/abs/2409.09896v1
- Date: Sun, 15 Sep 2024 23:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:00:44.977220
- Title: GRIN: Zero-Shot Metric Depth with Pixel-Level Diffusion
- Title(参考訳): GRIN:Pixel-Level Diffusionによるゼロショットメートル深度
- Authors: Vitor Guizilini, Pavel Tokmakov, Achal Dave, Rares Ambrus,
- Abstract要約: 本稿では,非構造化トレーニングデータを取り込むための効率的な拡散モデルGRINを提案する。
GRINは,ゼロショット距離単眼深度推定において,スクラッチからトレーニングした場合でも,新たな技術の確立を図っている。
- 参考スコア(独自算出の注目度): 27.35300492569507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D reconstruction from a single image is a long-standing problem in computer vision. Learning-based methods address its inherent scale ambiguity by leveraging increasingly large labeled and unlabeled datasets, to produce geometric priors capable of generating accurate predictions across domains. As a result, state of the art approaches show impressive performance in zero-shot relative and metric depth estimation. Recently, diffusion models have exhibited remarkable scalability and generalizable properties in their learned representations. However, because these models repurpose tools originally designed for image generation, they can only operate on dense ground-truth, which is not available for most depth labels, especially in real-world settings. In this paper we present GRIN, an efficient diffusion model designed to ingest sparse unstructured training data. We use image features with 3D geometric positional encodings to condition the diffusion process both globally and locally, generating depth predictions at a pixel-level. With comprehensive experiments across eight indoor and outdoor datasets, we show that GRIN establishes a new state of the art in zero-shot metric monocular depth estimation even when trained from scratch.
- Abstract(参考訳): 単一の画像からの3D再構成は、コンピュータビジョンにおける長年の問題である。
学習ベースの手法は、ますます大きくラベル付けされラベル付けされていないデータセットを活用することで、その固有のスケールの曖昧さに対処し、ドメイン間で正確な予測を生成できる幾何学的事前情報を生成する。
その結果、ゼロショット相対およびメートル法深度推定において、最先端のアプローチは印象的な性能を示した。
近年、拡散モデルは、その学習表現に顕著なスケーラビリティと一般化可能な性質を示した。
しかし、これらのモデルは、もともと画像生成用に設計されたツールを再利用しているため、ほとんどのディープ・レーベル、特に現実世界の環境では利用できない高密度のグランド・トゥルースでしか動作できない。
本稿では,スパース非構造化トレーニングデータを取り込み,効率的な拡散モデルGRINを提案する。
画像特徴と3次元幾何的位置エンコーディングを用いて拡散過程をグローバルかつ局所的に調整し,画素レベルでの深度予測を生成する。
8つの屋内および屋外データセットの総合的な実験により、GRINはゼロショットメートル法における新しい最先端のモノクロ深度推定を、スクラッチから訓練しても確立することを示した。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。