論文の概要: ADU-Depth: Attention-based Distillation with Uncertainty Modeling for
Depth Estimation
- arxiv url: http://arxiv.org/abs/2309.14744v1
- Date: Tue, 26 Sep 2023 08:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:34:07.502663
- Title: ADU-Depth: Attention-based Distillation with Uncertainty Modeling for
Depth Estimation
- Title(参考訳): ADU-Depth:深さ推定のための不確かさモデリングによる注意に基づく蒸留
- Authors: Zizhang Wu, Zhuozheng Li, Zhi-Gang Fan, Yunzhe Wu, Xiaoquan Wang, Rui
Tang, Jian Pu
- Abstract要約: 左右のイメージペアを入力として利用する教師ネットワークをトレーニングすることで,空間的手がかりを導入する。
注意適応型特徴蒸留と焦点深度適応型応答蒸留の両方をトレーニング段階で適用した。
実深度推定データセットKITTI と DrivingStereo に関する実験により,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 11.92011909884167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is challenging due to its inherent ambiguity and
ill-posed nature, yet it is quite important to many applications. While recent
works achieve limited accuracy by designing increasingly complicated networks
to extract features with limited spatial geometric cues from a single RGB
image, we intend to introduce spatial cues by training a teacher network that
leverages left-right image pairs as inputs and transferring the learned 3D
geometry-aware knowledge to the monocular student network. Specifically, we
present a novel knowledge distillation framework, named ADU-Depth, with the
goal of leveraging the well-trained teacher network to guide the learning of
the student network, thus boosting the precise depth estimation with the help
of extra spatial scene information. To enable domain adaptation and ensure
effective and smooth knowledge transfer from teacher to student, we apply both
attention-adapted feature distillation and focal-depth-adapted response
distillation in the training stage. In addition, we explicitly model the
uncertainty of depth estimation to guide distillation in both feature space and
result space to better produce 3D-aware knowledge from monocular observations
and thus enhance the learning for hard-to-predict image regions. Our extensive
experiments on the real depth estimation datasets KITTI and DrivingStereo
demonstrate the effectiveness of the proposed method, which ranked 1st on the
challenging KITTI online benchmark.
- Abstract(参考訳): 単分子深度推定は、その固有の曖昧さと不適切な性質のために困難であるが、多くのアプリケーションにとって非常に重要である。
近年の研究では,単一のrgb画像から空間幾何学的手がかりを限定した特徴を抽出できるように,複雑なネットワークをデザインすることで精度が低下しているが,本稿では,学習した3次元形状認識知識を入力として活用した教師ネットワークを単眼学習ネットワークに導入し,空間的手がかりを導入することを目的としている。
具体的には,教師ネットワークを活用し,学生ネットワークの学習を指導し,空間的シーン情報による正確な奥行き推定を促進することを目的として,adu-depthという新しい知識蒸留フレームワークを提案する。
ドメイン適応を可能とし,教師から生徒への効果的かつ円滑な知識伝達を確保するため,注意適応型特徴蒸留と焦点深度適応型応答蒸留をトレーニング段階で適用した。
さらに, 特徴空間と結果空間の蒸留を誘導する深度推定の不確かさを明示的にモデル化し, 単眼観察から3次元認識知識をより良いものにし, 予測困難な画像領域の学習を向上させる。
KITTI と DrivingStereo による実深度推定データセットに関する広範な実験により,提案手法の有効性が示された。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Sparse Depth-Guided Attention for Accurate Depth Completion: A
Stereo-Assisted Monitored Distillation Approach [7.902840502973506]
本研究では,教師モデルとしてステレオモデルを導入し,学生モデルの深度補修精度を向上させる。
自己教師型情報提供には,多視点奥行きの整合性やマルチスケールの最小再計画も活用する。
論文 参考訳(メタデータ) (2023-03-28T09:23:19Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。