論文の概要: DepthFocus: Controllable Depth Estimation for See-Through Scenes
- arxiv url: http://arxiv.org/abs/2511.16993v1
- Date: Fri, 21 Nov 2025 06:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.911211
- Title: DepthFocus: Controllable Depth Estimation for See-Through Scenes
- Title(参考訳): DepthFocus:シースルーシーンの制御可能な深さ推定
- Authors: Junhong Min, Jimin Kim, Cheol-Hui Min, Minwook Kim, Youngpil Jeon, Minyong Choi,
- Abstract要約: ステレオ深度推定をインテント駆動制御として再定義するステアブルビジョントランスであるDepthFocusを紹介する。
スカラー深度設定を条件に、モデルはその計算を動的に適応させ、複雑なシーン内で選択的な知覚を可能にする。
- 参考スコア(独自算出の注目度): 2.934725935750573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depth in the real world is rarely singular. Transmissive materials create layered ambiguities that confound conventional perception systems. Existing models remain passive, attempting to estimate static depth maps anchored to the nearest surface, while humans actively shift focus to perceive a desired depth. We introduce DepthFocus, a steerable Vision Transformer that redefines stereo depth estimation as intent-driven control. Conditioned on a scalar depth preference, the model dynamically adapts its computation to focus on the intended depth, enabling selective perception within complex scenes. The training primarily leverages our newly constructed 500k multi-layered synthetic dataset, designed to capture diverse see-through effects. DepthFocus not only achieves state-of-the-art performance on conventional single-depth benchmarks like BOOSTER, a dataset notably rich in transparent and reflective objects, but also quantitatively demonstrates intent-aligned estimation on our newly proposed real and synthetic multi-depth datasets. Moreover, it exhibits strong generalization capabilities on unseen see-through scenes, underscoring its robustness as a significant step toward active and human-like 3D perception.
- Abstract(参考訳): 現実世界の深さはまれに特異である。
透過性材料は、従来の知覚システムと相反する層状あいまいさを創出する。
既存のモデルはまだ受動的であり、最も近い表面に固定された静止深度マップを推定しようと試みている。
ステレオ深度推定をインテント駆動制御として再定義するステアブルビジョントランスであるDepthFocusを紹介する。
スカラー深度設定を条件に、モデルはその計算を動的に適応して意図した深度に焦点を合わせ、複雑なシーン内で選択的な知覚を可能にする。
トレーニングは主に、さまざまなシースルー効果を捉えるために設計された、新しく構築された500kの多層合成データセットを活用する。
DepthFocusは、透明で反射的なオブジェクトに特有なデータセットであるBOOSTERのような従来のシングルディープスベンチマークで最先端のパフォーマンスを達成するだけでなく、新たに提案したリアルかつ合成されたマルチディープスデータセットに対して、意図に沿った推定を定量的に示す。
さらに、見えないシーンに強力な一般化能力を示し、その頑丈さを、アクティブで人間に似た3D知覚への重要なステップとして強調している。
関連論文リスト
- Depth Jitter: Seeing through the Depth [2.2842607238440857]
Depth-Jitterは、自然深度の変化をシミュレートして一般化を改善する、新しい深度に基づく拡張手法である。
提案手法は, 合成深度摂動を生成するために, 奥行き変動閾値によって誘導される適応深度オフセットを適用した。
FathomNetとUTDAC 2020の2つのベンチマークデータセットでDepth-Jitterを評価した。
論文 参考訳(メタデータ) (2025-08-08T11:14:57Z) - Rethinking Transparent Object Grasping: Depth Completion with Monocular Depth Estimation and Instance Mask [10.472380465235629]
ReMakeは、インスタンスマスクと単眼深度推定によってガイドされる、新しい深度補完フレームワークである。
提案手法は,ベンチマークデータセットと実世界のシナリオの両方において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-04T15:14:47Z) - Seurat: From Moving Points to Depth [66.65189052568209]
本研究では,2次元軌跡の空間的関係と時間的変化を調べ,相対的な深度を推定する手法を提案する。
提案手法は,様々な領域にわたる時間的スムーズかつ高精度な深度予測を実現する。
論文 参考訳(メタデータ) (2025-04-20T17:37:02Z) - Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - Transparent Object Depth Completion [11.825680661429825]
理解と操作のための透明な物体の認識は、依然として大きな課題である。
深度マップに大きく依存する既存のロボットグリップ法は、その独特の視覚特性のために透明な物体には適さない。
本稿では,一視点RGB-Dに基づく深度推定と多視点深度推定の長所を組み合わせた,透明物体深度補完のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:38:06Z) - Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth Estimation [23.93080319283679]
既存の手法では、画像再構成損失を中心に、画素の深さと動きを共同で推定する。
動的領域1は、深度と動きの推定に固有の曖昧さのため、これらの手法にとって重要な課題である。
本稿では,動的領域に対する擬似深度ラベルをトレーニングデータから活用する自己教師型トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-23T10:51:15Z) - Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。