論文の概要: Structure-Centric Robust Monocular Depth Estimation via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2410.06982v1
- Date: Wed, 9 Oct 2024 15:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:07:19.497869
- Title: Structure-Centric Robust Monocular Depth Estimation via Knowledge Distillation
- Title(参考訳): 知識蒸留による構造中心ロバスト単分子深さ推定
- Authors: Runze Chen, Haiyong Luo, Fang Zhao, Jingze Yu, Yupeng Jia, Juan Wang, Xuepeng Ma,
- Abstract要約: 単眼深度推定はコンピュータビジョンにおける3次元知覚の重要な手法である。
現実のシナリオでは、悪天候の変動、動きのぼやけ、夜間の照明条件の悪いシーンなど、大きな課題に直面している。
我々は,局所的なテクスチャへの過度な依存を低減し,パターンの欠落や干渉に対する堅牢性を向上するための新しいアプローチを考案した。
- 参考スコア(独自算出の注目度): 9.032563775151074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation, enabled by self-supervised learning, is a key technique for 3D perception in computer vision. However, it faces significant challenges in real-world scenarios, which encompass adverse weather variations, motion blur, as well as scenes with poor lighting conditions at night. Our research reveals that we can divide monocular depth estimation into three sub-problems: depth structure consistency, local texture disambiguation, and semantic-structural correlation. Our approach tackles the non-robustness of existing self-supervised monocular depth estimation models to interference textures by adopting a structure-centered perspective and utilizing the scene structure characteristics demonstrated by semantics and illumination. We devise a novel approach to reduce over-reliance on local textures, enhancing robustness against missing or interfering patterns. Additionally, we incorporate a semantic expert model as the teacher and construct inter-model feature dependencies via learnable isomorphic graphs to enable aggregation of semantic structural knowledge. Our approach achieves state-of-the-art out-of-distribution monocular depth estimation performance across a range of public adverse scenario datasets. It demonstrates notable scalability and compatibility, without necessitating extensive model engineering. This showcases the potential for customizing models for diverse industrial applications.
- Abstract(参考訳): 自己教師付き学習によって実現された単眼深度推定は、コンピュータビジョンにおける3次元知覚の重要な技術である。
しかし、悪天候、動きのぼやけ、夜間の照明条件の悪いシーンなど、現実世界のシナリオでは大きな課題に直面している。
本研究は, 単分子深度推定を, 深度構造整合性, 局所テクスチャの曖昧さ, 意味構造相関の3つのサブプロブレムに分割できることを明らかにする。
提案手法は, 構造中心の視点を取り入れ, セマンティクスと照明によって示されるシーン構造特性を活用することにより, 既存の自己教師型単眼深度推定モデルから干渉テクスチャへの非破壊性に対処する。
我々は,局所的なテクスチャへの過度な依存を低減し,パターンの欠落や干渉に対する堅牢性を向上するための新しいアプローチを考案した。
さらに、セマンティックエキスパートモデルを教師として組み込んで、学習可能な同型グラフを通してモデル間機能依存を構築し、セマンティックな構造的知識の集約を可能にする。
提案手法は, 公共の有害シナリオデータセットにまたがって, 最先端の単分子深度推定性能を実現する。
大規模なモデルエンジニアリングを必要とせずに、目立ったスケーラビリティと互換性を示す。
これは、様々な産業用途のモデルをカスタマイズする可能性を示している。
関連論文リスト
- Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions [30.148969711689773]
本稿では, 単一画像深度推定タスクにおいて, ディストリビューションデータの挑戦によって生じる複雑さに対処する新しい手法を提案する。
我々は,包括的課題と関連する深度情報を用いて,新たなユーザ定義シーンを体系的に生成する。
これは、深度認識制御による最先端のテキスト・画像拡散モデルを活用することで実現される。
論文 参考訳(メタデータ) (2024-07-23T17:59:59Z) - Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Fine-grained Semantics-aware Representation Enhancement for
Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。
我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。
提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-08-19T17:50:51Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - DeFeat-Net: General Monocular Depth via Simultaneous Unsupervised
Representation Learning [65.94499390875046]
DeFeat-Netは、クロスドメインの高密度な特徴表現を同時に学習するアプローチである。
提案手法は, 誤差対策を全て10%程度減らすことで, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2020-03-30T13:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。