論文の概要: LiftFormer: Lifting and Frame Theory Based Monocular Depth Estimation Using Depth and Edge Oriented Subspace Representation
- arxiv url: http://arxiv.org/abs/2604.06576v1
- Date: Wed, 08 Apr 2026 01:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.294309
- Title: LiftFormer: Lifting and Frame Theory Based Monocular Depth Estimation Using Depth and Edge Oriented Subspace Representation
- Title(参考訳): LiftFormer:深度とエッジ配向部分空間表現を用いたリフティングとフレーム理論に基づく単眼深度推定
- Authors: Shuai Li, Huibin Bai, Yanbo Gao, Chong Lv, Hui Yuan, Chuankun Li, Wei Hua, Tian Xie,
- Abstract要約: 本稿では,画像色特徴と深度値をブリッジする中間部分空間を構築するためのLiftFormerと,エッジ周辺の深度予測を強化するサブスペースを提案する。
MDEは、深さ値予測問題を深度指向幾何表現(DGR)部分空間特徴表現に変換することで定式化される。
エッジ認識表現(ER)サブスペースが構築され、奥行き特徴が変換され、エッジ周辺の局所特徴が強化される。
- 参考スコア(独自算出の注目度): 22.568452821433354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation (MDE) has attracted increasing interest in the past few years, owing to its important role in 3D vision. MDE is the estimation of a depth map from a monocular image/video to represent the 3D structure of a scene, which is a highly ill-posed problem. To solve this problem, in this paper, we propose a LiftFormer based on lifting theory topology, for constructing an intermediate subspace that bridges the image color features and depth values, and a subspace that enhances the depth prediction around edges. MDE is formulated by transforming the depth value prediction problem into depth-oriented geometric representation (DGR) subspace feature representation, thus bridging the learning from color values to geometric depth values. A DGR subspace is constructed based on frame theory by using linearly dependent vectors in accordance with depth bins to provide a redundant and robust representation. The image spatial features are transformed into the DGR subspace, where these features correspond directly to the depth values. Moreover, considering that edges usually present sharp changes in a depth map and tend to be erroneously predicted, an edge-aware representation (ER) subspace is constructed, where depth features are transformed and further used to enhance the local features around edges. The experimental results demonstrate that our LiftFormer achieves state-of-the-art performance on widely used datasets, and an ablation study validates the effectiveness of both proposed lifting modules in our LiftFormer.
- Abstract(参考訳): 単眼深度推定(MDE)は,3次元視覚において重要な役割を担っているため,近年関心が高まっている。
MDEは、シーンの3次元構造を表現するために、モノクロ画像/ビデオから深度マップを推定する。
そこで本稿では,リフト理論トポロジに基づくLiftFormerを提案し,画像色特徴と深度値をブリッジする中間部分空間と,エッジ周辺の深度予測を強化する部分空間を構築する。
MDEは、深度値予測問題を深度指向幾何特徴表現(DGR)に変換し、色値から幾何深度値への学習をブリッジすることで定式化する。
DGR部分空間は、深さビンに従って線形依存ベクトルを用いてフレーム理論に基づいて構成され、冗長でロバストな表現を提供する。
画像空間の特徴はDGR部分空間に変換され、これらの特徴は深さ値と直接対応する。
さらに、エッジは通常、深度マップに急激な変化を示し、誤って予測される傾向があることを考慮し、エッジ認識表現(ER)サブスペースを構築し、深度特徴を変換し、エッジ周辺の局所的特徴を強化する。
実験により,我々のLiftFormerは,広く使用されているデータセット上で最先端のパフォーマンスを達成し,このLiftFormerで提案したリフトモジュールの有効性を検証した。
関連論文リスト
- In Depth We Trust: Reliable Monocular Depth Supervision for Gaussian Splatting [22.674046124865196]
幾何的監督にスケールあいまいでノイズの多い奥行きを取り入れたトレーニングフレームワークを導入する。
多様なデータセットに対する実験では、幾何精度が一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-04-07T11:15:15Z) - NAIMA: Semantics Aware RGB Guided Depth Super-Resolution [50.15623093332659]
ガイドド・ディープ・スーパーレゾリューション(GDSR)は、低解像度の深度マップと高解像度のRGB画像に頼って、より微細な構造を復元するマルチモーダルな深度マップ・スーパーレゾリューションのアプローチである。
本稿では,事前学習された視覚変換器トークンの埋め込みから生成される,グローバルな文脈的セマンティックプリエントを導入するソリューションを提案する。
論文 参考訳(メタデータ) (2026-04-06T04:14:59Z) - MDE-VIO: Enhancing Visual-Inertial Odometry Using Learned Depth Priors [8.2208199207543]
本稿では,アフィン不変深度一貫性と対方向順序制約を強制する新しいフレームワークを提案する。
このアプローチは、計量スケールを頑健に回復しながら、エッジデバイスの計算限界に厳密に固執する。
論文 参考訳(メタデータ) (2026-02-11T19:53:06Z) - StarryGazer: Leveraging Monocular Depth Estimation Models for Domain-Agnostic Single Depth Image Completion [56.28564075246147]
StarryGazerは、単一のスパース深度画像とRGB画像から高密度深度画像を予測するフレームワークである。
我々は、相対深度画像を生成するために、事前訓練されたMDEモデルを用いる。
モデルの精度とロバスト性を改善するために、相対深度マップとRGBイメージを組み込んだ合成ペアを用いて改良ネットワークを訓練する。
論文 参考訳(メタデータ) (2025-12-15T09:56:09Z) - An End-to-End Room Geometry Constrained Depth Estimation Framework for Indoor Panorama Images [50.84536164535991]
既存の手法ではピクセルレベルの精度に重点を置いており、部屋の角が乱れ、ノイズ感度が低下する。
室内形状制約に基づく奥行き推定フレームワークを提案する。
本フレームワークには,部屋形状に基づく背景深度解決戦略と,背景分割誘導型融合機構の2つの戦略が組み込まれている。
論文 参考訳(メタデータ) (2025-10-09T05:52:48Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Learning Continuous Depth Representation via Geometric Spatial
Aggregator [47.1698365486215]
深度マップ超解法(DSR)のための新しい連続深度表現法を提案する。
この表現の中心は我々の提案した幾何空間アグリゲータ(GSA)であり、これは任意にアップサンプリングされたターゲットグリッドにより変調された距離場を利用する。
また、局所座標間の関数マッピングを構築するための原理的な方法を持つGeoDSRというトランスフォーマースタイルのバックボーンも提示する。
論文 参考訳(メタデータ) (2022-12-07T07:48:23Z) - Depth Completion using Piecewise Planar Model [94.0808155168311]
深度マップは一連の学習された基底で表現することができ、閉じた解法で効率的に解ける。
しかし、この方法の1つの問題は、色境界が深さ境界と矛盾する場合にアーチファクトを生成することである。
私たちは、より厳密な深度回復モデルを実行します。
論文 参考訳(メタデータ) (2020-12-06T07:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。