論文の概要: Depth Field Networks for Generalizable Multi-view Scene Representation
- arxiv url: http://arxiv.org/abs/2207.14287v1
- Date: Thu, 28 Jul 2022 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:02:47.296303
- Title: Depth Field Networks for Generalizable Multi-view Scene Representation
- Title(参考訳): 多視点シーン表現を一般化する深度場ネットワーク
- Authors: Vitor Guizilini, Igor Vasiljevic, Jiading Fang, Rares Ambrus, Greg
Shakhnarovich, Matthew Walter, Adrien Gaidon
- Abstract要約: 我々は、ビューの多様性を高めるために、幾何学的帰納法として、一連の3次元データ拡張手法を導入し、暗黙的に多視点一貫したシーン表現を学習する。
我々のDeFiNe(Depth Field Networks)は、明示的な幾何学的制約を伴わずにステレオとビデオの深さを推定し、広いマージンでゼロショット領域の一般化を改善する。
- 参考スコア(独自算出の注目度): 31.090289865520475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern 3D computer vision leverages learning to boost geometric reasoning,
mapping image data to classical structures such as cost volumes or epipolar
constraints to improve matching. These architectures are specialized according
to the particular problem, and thus require significant task-specific tuning,
often leading to poor domain generalization performance. Recently, generalist
Transformer architectures have achieved impressive results in tasks such as
optical flow and depth estimation by encoding geometric priors as inputs rather
than as enforced constraints. In this paper, we extend this idea and propose to
learn an implicit, multi-view consistent scene representation, introducing a
series of 3D data augmentation techniques as a geometric inductive prior to
increase view diversity. We also show that introducing view synthesis as an
auxiliary task further improves depth estimation. Our Depth Field Networks
(DeFiNe) achieve state-of-the-art results in stereo and video depth estimation
without explicit geometric constraints, and improve on zero-shot domain
generalization by a wide margin.
- Abstract(参考訳): 現代の3Dコンピュータビジョンは、学習を活用して幾何学的推論を強化し、画像データをコストボリュームやエピポーラ制約のような古典的な構造にマッピングすることでマッチングを改善する。
これらのアーキテクチャは特定の問題に特化しており、タスク固有のチューニングが必要であり、しばしばドメインの一般化性能が低下する。
近年、一般化的トランスフォーマーアーキテクチャは、強制的制約ではなく、幾何学的事前を入力として符号化することで、光学的フローや深さ推定といったタスクにおいて、目覚ましい結果を得た。
本稿では,この概念を拡張し,多視点に一貫性のある暗黙的なシーン表現を学習し,視点の多様性を増す前に幾何学的インダクティブとして一連の3次元データ拡張手法を導入することを提案する。
また,補助作業としてビュー合成を導入することにより,深度推定がさらに向上することを示す。
我々の深度場ネットワーク(define)は、明示的な幾何学的制約を伴わずにステレオおよびビデオの深さ推定を行い、ゼロショット領域の一般化を広いマージンで改善する。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer [12.486504395099022]
自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。
ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。
空間的, 文脈的, 意味的次元にまたがる表現能力に, 複数の先行情報を活用する新しい自己教師付き単眼深度推定モデルを提案する。
論文 参考訳(メタデータ) (2024-06-13T08:51:57Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - DeLiRa: Self-Supervised Depth, Light, and Radiance Fields [32.350984950639656]
可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。
標準的なボリュームレンダリングアプローチは、視点の多様性が限られている場合、縮退したジオメトリーと競合する。
本研究では,多視点測光目標を体積レンダリングのための幾何正則化器として用いることを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:16:25Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。