論文の概要: Re-Depth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting
- arxiv url: http://arxiv.org/abs/2512.17908v1
- Date: Fri, 19 Dec 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.54241
- Title: Re-Depth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting
- Title(参考訳): Re-Depth Anything: セルフスーパービジョンのリライトによるテスト時間深さリファインメント
- Authors: Ananta R. Bhattarai, Helge Rhodin,
- Abstract要約: テスト時のセルフスーパービジョンフレームワークであるRe-Depth Anythingを紹介します。
DA-V2を大規模2次元拡散モデルの強力な先行モデルと融合する。
本手法は,入力画像に直接ラベルのない精錬を行う。
- 参考スコア(独自算出の注目度): 14.53203375098443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation remains challenging as recent foundation models, such as Depth Anything V2 (DA-V2), struggle with real-world images that are far from the training distribution. We introduce Re-Depth Anything, a test-time self-supervision framework that bridges this domain gap by fusing DA-V2 with the powerful priors of large-scale 2D diffusion models. Our method performs label-free refinement directly on the input image by re-lighting predicted depth maps and augmenting the input. This re-synthesis method replaces classical photometric reconstruction by leveraging shape from shading (SfS) cues in a new, generative context with Score Distillation Sampling (SDS). To prevent optimization collapse, our framework employs a targeted optimization strategy: rather than optimizing depth directly or fine-tuning the full model, we freeze the encoder and only update intermediate embeddings while also fine-tuning the decoder. Across diverse benchmarks, Re-Depth Anything yields substantial gains in depth accuracy and realism over the DA-V2, showcasing new avenues for self-supervision by augmenting geometric reasoning.
- Abstract(参考訳): 近年のDepth Anything V2 (DA-V2) のような基礎モデルでは、トレーニング分布から遠く離れた現実世界のイメージに苦戦しているため、単眼深度推定は依然として困難である。
DA-V2を大規模2次元拡散モデルの強力な先行モデルと融合させることにより、ドメインギャップを橋渡しするテストタイムセルフスーパービジョンフレームワークであるRe-Depth Anythingを紹介する。
提案手法は, 予測深度マップを再照らし, 入力を増大させることにより, 直接入力画像にラベルのない精細化を行う。
シェーディング(SfS)キューの形状を、スコア蒸留サンプリング(SDS)で新たに生成した文脈で活用することにより、古典的な光度再構成を置き換える。
最適化の崩壊を防止するため,本フレームワークでは,深度を直接最適化したり,フルモデルを微調整する代わりに,エンコーダを凍結し,中間埋め込みを更新すると同時にデコーダを微調整する。
様々なベンチマークにおいて、Re-Depth Anything は DA-V2 よりも深度精度とリアリズムが大幅に向上し、幾何学的推論を強化することで、自己超越のための新たな道を示す。
関連論文リスト
- Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。
UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。
我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文 参考訳(メタデータ) (2025-02-27T14:03:15Z) - A Simple yet Effective Test-Time Adaptation for Zero-Shot Monocular Metric Depth Estimation [46.037640130193566]
センサや低分解能LiDARなどの技術によって提供される3Dポイントや、IMUが提示したポーズによる構造移動を用いて、奥行きの予測を再現する新しい手法を提案する。
実験では, ゼロショット単角距離推定法, 微調整法と比較しての競合性, 深度補修法よりも頑健さが向上した。
論文 参考訳(メタデータ) (2024-12-18T17:50:15Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - DeepRelativeFusion: Dense Monocular SLAM using Single-Image Relative
Depth Prediction [4.9188958016378495]
本稿では,一様一貫した3次元構造を復元できる,ディープフュージョンと呼ばれる高密度単分子SLAMシステムを提案する。
視覚的SLAMを用いて、カメラのポーズと奥行きの半深度マップを確実に復元し、それから相対深度予測を用いて半深度マップを密度化し、ポーズグラフを精査する。
我々のシステムは、最先端の高密度SLAMシステムよりも、大規模なマージンによる高密度再構成精度で定量的に性能を向上する。
論文 参考訳(メタデータ) (2020-06-07T05:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。