論文の概要: One Look is Enough: A Novel Seamless Patchwise Refinement for Zero-Shot Monocular Depth Estimation Models on High-Resolution Images
- arxiv url: http://arxiv.org/abs/2503.22351v1
- Date: Fri, 28 Mar 2025 11:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:26.719887
- Title: One Look is Enough: A Novel Seamless Patchwise Refinement for Zero-Shot Monocular Depth Estimation Models on High-Resolution Images
- Title(参考訳): 高分解能画像上のゼロショット単眼深度推定モデルのための新しいシームレスパッチワイズリファインメント
- Authors: Byeongjun Kwon, Munchurl Kim,
- Abstract要約: 我々は、効率的で一般化可能なタイルベースのフレームワークであるPatch Refine Once (PRO)を提案する。
提案手法は, (i) 深度不連続性問題を緩和しつつ, テスト時間効率を向上させるグループパッチ整合性トレーニングという2つの重要な要素から構成される。
我々のPROはよく調和でき、グリッド境界における深度不連続性の少ない高解像度画像のグリッド入力に対して、そのDEC機能を依然として有効にすることができる。
- 参考スコア(独自算出の注目度): 25.48185527420231
- License:
- Abstract: Zero-shot depth estimation (DE) models exhibit strong generalization performance as they are trained on large-scale datasets. However, existing models struggle with high-resolution images due to the discrepancy in image resolutions of training (with smaller resolutions) and inference (for high resolutions). Processing them at full resolution leads to decreased estimation accuracy on depth with tremendous memory consumption, while downsampling to the training resolution results in blurred edges in the estimated depth images. Prevailing high-resolution depth estimation methods adopt a patch-based approach, which introduces depth discontinuity issues when reassembling the estimated depth patches and results in test-time inefficiency. Additionally, to obtain fine-grained depth details, these methods rely on synthetic datasets due to the real-world sparse ground truth depth, leading to poor generalizability. To tackle these limitations, we propose Patch Refine Once (PRO), an efficient and generalizable tile-based framework. Our PRO consists of two key components: (i) Grouped Patch Consistency Training that enhances test-time efficiency while mitigating the depth discontinuity problem by jointly processing four overlapping patches and enforcing a consistency loss on their overlapping regions within a single backpropagation step, and (ii) Bias Free Masking that prevents the DE models from overfitting to dataset-specific biases, enabling better generalization to real-world datasets even after training on synthetic data. Zero-shot evaluation on Booster, ETH3D, Middlebury 2014, and NuScenes demonstrates into which our PRO can be well harmonized, making their DE capabilities still effective for the grid input of high-resolution images with little depth discontinuities at the grid boundaries. Our PRO runs fast at inference time.
- Abstract(参考訳): ゼロショット深度推定(DE)モデルは、大規模なデータセットでトレーニングされるため、強力な一般化性能を示す。
しかし、既存のモデルは、訓練(解像度が小さい)と推論(高解像度)のイメージ解像度の相違により、高解像度の画像に苦慮している。
フル解像度で処理すると、メモリ消費が大きくなるほど深度の推定精度が低下し、トレーニング解像度へのダウンサンプリングの結果、推定深度画像のぼやけたエッジが得られる。
高分解能深度推定法では、推定した深度パッチを再アセンブルする際の深度不連続問題を導入し、テスト時間の非効率をもたらすパッチベースのアプローチが一般的である。
さらに、詳細な深度を求めるために、これらの手法は現実世界のスパース基底真理深度による合成データセットに依存しており、一般化性は低い。
これらの制約に対処するため、我々は効率的で一般化可能なタイルベースのフレームワークであるPatch Refine Once (PRO)を提案する。
私たちのProは2つの重要なコンポーネントで構成されています。
一 四つの重複するパッチを共同処理し、一本のバックプロパゲーションステップ内に重なり合う領域の整合性を損なうことにより、深度不連続問題を緩和しつつ、試験時間効率を向上させるグループパッチ一貫性訓練
(ii)Dモデルがデータセット固有のバイアスに過度に適合することを防ぐバイアスフリーマスキングにより、合成データによるトレーニング後の実世界のデータセットへのより良い一般化が可能となる。
Booster、ETH3D、Middlebury 2014、NuScenesのゼロショット評価では、私たちのProがうまく調和できることを示す。
我々のPROは推論時に速く走る。
関連論文リスト
- PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition [54.642714288448744]
PETALfaceは、PEFTのパワーを低解像度の顔認識に活用した最初の作品である。
バックボーンに2つの低ランク適応モジュールを導入し、入力画像の品質に基づいて重みを調整し、ギャラリーとプローブ画像の品質の違いを考慮に入れた。
実験により,提案手法は高分解能・混合品質データセットの性能を保ちながら,低分解能データセットの完全な微調整よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T18:59:45Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z) - Boosting Monocular Depth Estimation Models to High-Resolution via
Content-Adaptive Multi-Resolution Merging [14.279471205248534]
本研究では,一貫したシーン構造と高周波の詳細が深度推定性能に与える影響を示す。
本稿では,画像全体の深さ推定を改善する二重推定法と,局所的な詳細を付加するパッチ選択法を提案する。
異なる解像度での推定とコンテキストの変化を組み合わせることで、高精細度でマルチメガピクセルの深度マップを作成できることを実証した。
論文 参考訳(メタデータ) (2021-05-28T17:55:15Z) - Towards Unpaired Depth Enhancement and Super-Resolution in the Wild [121.96527719530305]
最先端のデータ駆動による深度マップの超解像法は、同じシーンの低解像度と高解像度の深度マップの登録ペアに依存している。
未経験データからの学習に基づく深度マップの強化について考察する。
論文 参考訳(メタデータ) (2021-05-25T16:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。