論文の概要: PatchFusion: An End-to-End Tile-Based Framework for High-Resolution
Monocular Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2312.02284v1
- Date: Mon, 4 Dec 2023 19:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:49:55.659248
- Title: PatchFusion: An End-to-End Tile-Based Framework for High-Resolution
Monocular Metric Depth Estimation
- Title(参考訳): PatchFusion: 高分解能単分子深さ推定のためのエンドツーエンドタイルベースフレームワーク
- Authors: Zhenyu Li, Shariq Farooq Bhat, Peter Wonka
- Abstract要約: 単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。
PatchFusionは3つのキーコンポーネントを持つタイルベースの新しいフレームワークで、最先端技術を改善する。
UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細で高解像度の深度マップを作成できることを実証している。
- 参考スコア(独自算出の注目度): 47.53810786827547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single image depth estimation is a foundational task in computer vision and
generative modeling. However, prevailing depth estimation models grapple with
accommodating the increasing resolutions commonplace in today's consumer
cameras and devices. Existing high-resolution strategies show promise, but they
often face limitations, ranging from error propagation to the loss of
high-frequency details. We present PatchFusion, a novel tile-based framework
with three key components to improve the current state of the art: (1) A
patch-wise fusion network that fuses a globally-consistent coarse prediction
with finer, inconsistent tiled predictions via high-level feature guidance, (2)
A Global-to-Local (G2L) module that adds vital context to the fusion network,
discarding the need for patch selection heuristics, and (3) A Consistency-Aware
Training (CAT) and Inference (CAI) approach, emphasizing patch overlap
consistency and thereby eradicating the necessity for post-processing.
Experiments on UnrealStereo4K, MVS-Synth, and Middleburry 2014 demonstrate that
our framework can generate high-resolution depth maps with intricate details.
PatchFusion is independent of the base model for depth estimation. Notably, our
framework built on top of SOTA ZoeDepth brings improvements for a total of
17.3% and 29.4% in terms of the root mean squared error (RMSE) on
UnrealStereo4K and MVS-Synth, respectively.
- Abstract(参考訳): 単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。
しかし、一般的な深度推定モデルは、現在の消費者向けカメラやデバイスでよく見られる解像度の増大に対処する。
既存の高解像度戦略は有望であるが、エラーの伝播から高周波の詳細の喪失まで、しばしば制限に直面している。
We present PatchFusion, a novel tile-based framework with three key components to improve the current state of the art: (1) A patch-wise fusion network that fuses a globally-consistent coarse prediction with finer, inconsistent tiled predictions via high-level feature guidance, (2) A Global-to-Local (G2L) module that adds vital context to the fusion network, discarding the need for patch selection heuristics, and (3) A Consistency-Aware Training (CAT) and Inference (CAI) approach, emphasizing patch overlap consistency and thereby eradicating the necessity for post-processing.
UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細を持つ高分解能深度マップを作成できることを示した。
patchfusionは深度推定のためのベースモデルとは独立である。
特に、SOTA ZoeDepth上に構築された我々のフレームワークは、UnrealStereo4KとMVS-Synthのルート平均二乗誤差(RMSE)の合計で17.3%と29.4%の改善をもたらしている。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - C2F2NeUS: Cascade Cost Frustum Fusion for High Fidelity and
Generalizable Neural Surface Reconstruction [12.621233209149953]
本稿では,多視点ステレオとニューラルサイン付き距離関数表現を組み合わせた新しい統合手法を提案する。
本手法は,ロバストな表面を再構成し,既存の最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-16T17:56:16Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - GARNet: Global-Aware Multi-View 3D Reconstruction Network and the
Cost-Performance Tradeoff [10.8606881536924]
本稿では,各ブランチとグローバル間の相関関係を構築し,重み付け推論の包括的基盤を提供する,グローバルアウェアアテンションベースの融合手法を提案する。
ネットワークの能力を高めるために,ネットワーク全体の形状を監督する新たな損失関数を導入する。
ShapeNetの実験により,本手法が既存のSOTA法より優れていることを確認した。
論文 参考訳(メタデータ) (2022-11-04T07:45:19Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - Fusion of Range and Stereo Data for High-Resolution Scene-Modeling [20.824550995195057]
本稿では,高分解能深度マップの構築において,レンジステレオ融合の問題に対処する。
低分解能深度データと高分解能ステレオデータとを最大後部(MAP)定式化で組み合わせる。
エネルギー関数におけるデータ期間の3つの特性のために、方法の精度は損なわれません。
論文 参考訳(メタデータ) (2020-12-12T09:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。