論文の概要: Depth Field Networks for Generalizable Multi-view Scene Representation
- arxiv url: http://arxiv.org/abs/2207.14287v1
- Date: Thu, 28 Jul 2022 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:02:47.296303
- Title: Depth Field Networks for Generalizable Multi-view Scene Representation
- Title(参考訳): 多視点シーン表現を一般化する深度場ネットワーク
- Authors: Vitor Guizilini, Igor Vasiljevic, Jiading Fang, Rares Ambrus, Greg
Shakhnarovich, Matthew Walter, Adrien Gaidon
- Abstract要約: 我々は、ビューの多様性を高めるために、幾何学的帰納法として、一連の3次元データ拡張手法を導入し、暗黙的に多視点一貫したシーン表現を学習する。
我々のDeFiNe(Depth Field Networks)は、明示的な幾何学的制約を伴わずにステレオとビデオの深さを推定し、広いマージンでゼロショット領域の一般化を改善する。
- 参考スコア(独自算出の注目度): 31.090289865520475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern 3D computer vision leverages learning to boost geometric reasoning,
mapping image data to classical structures such as cost volumes or epipolar
constraints to improve matching. These architectures are specialized according
to the particular problem, and thus require significant task-specific tuning,
often leading to poor domain generalization performance. Recently, generalist
Transformer architectures have achieved impressive results in tasks such as
optical flow and depth estimation by encoding geometric priors as inputs rather
than as enforced constraints. In this paper, we extend this idea and propose to
learn an implicit, multi-view consistent scene representation, introducing a
series of 3D data augmentation techniques as a geometric inductive prior to
increase view diversity. We also show that introducing view synthesis as an
auxiliary task further improves depth estimation. Our Depth Field Networks
(DeFiNe) achieve state-of-the-art results in stereo and video depth estimation
without explicit geometric constraints, and improve on zero-shot domain
generalization by a wide margin.
- Abstract(参考訳): 現代の3Dコンピュータビジョンは、学習を活用して幾何学的推論を強化し、画像データをコストボリュームやエピポーラ制約のような古典的な構造にマッピングすることでマッチングを改善する。
これらのアーキテクチャは特定の問題に特化しており、タスク固有のチューニングが必要であり、しばしばドメインの一般化性能が低下する。
近年、一般化的トランスフォーマーアーキテクチャは、強制的制約ではなく、幾何学的事前を入力として符号化することで、光学的フローや深さ推定といったタスクにおいて、目覚ましい結果を得た。
本稿では,この概念を拡張し,多視点に一貫性のある暗黙的なシーン表現を学習し,視点の多様性を増す前に幾何学的インダクティブとして一連の3次元データ拡張手法を導入することを提案する。
また,補助作業としてビュー合成を導入することにより,深度推定がさらに向上することを示す。
我々の深度場ネットワーク(define)は、明示的な幾何学的制約を伴わずにステレオおよびビデオの深さ推定を行い、ゼロショット領域の一般化を広いマージンで改善する。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [69.27589722032504]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - DeLiRa: Self-Supervised Depth, Light, and Radiance Fields [32.350984950639656]
可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。
標準的なボリュームレンダリングアプローチは、視点の多様性が限られている場合、縮退したジオメトリーと競合する。
本研究では,多視点測光目標を体積レンダリングのための幾何正則化器として用いることを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:16:25Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - End-to-End Multi-View Structure-from-Motion with Hypercorrelation
Volumes [7.99536002595393]
この問題に対処するために深層学習技術が提案されている。
我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。
一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
論文 参考訳(メタデータ) (2022-09-14T20:58:44Z) - Towards Domain-agnostic Depth Completion [96.67020906681175]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域間での一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。