論文の概要: BinsFormer: Revisiting Adaptive Bins for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2204.00987v1
- Date: Sun, 3 Apr 2022 04:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 09:36:41.609704
- Title: BinsFormer: Revisiting Adaptive Bins for Monocular Depth Estimation
- Title(参考訳): BinsFormer: 単眼深度推定のためのアダプティブビンの再検討
- Authors: Zhenyu Li, Xuyang Wang, Xianming Liu, Junjun Jiang
- Abstract要約: 本稿では,分類回帰に基づく深度推定に適したBinsFormerという新しいフレームワークを提案する。
1)適応的なビンの適切な生成、2)確率分布とビン予測の間の十分な相互作用である。
KITTI、NYU、SUN RGB-Dデータセットの実験は、BinsFormerが最先端のモノクル深度推定法をはるかに上回っていることを示している。
- 参考スコア(独自算出の注目度): 46.678016537618845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation is a fundamental task in computer vision and has
drawn increasing attention. Recently, some methods reformulate it as a
classification-regression task to boost the model performance, where continuous
depth is estimated via a linear combination of predicted probability
distributions and discrete bins. In this paper, we present a novel framework
called BinsFormer, tailored for the classification-regression-based depth
estimation. It mainly focuses on two crucial components in the specific task:
1) proper generation of adaptive bins and 2) sufficient interaction between
probability distribution and bins predictions. To specify, we employ the
Transformer decoder to generate bins, novelly viewing it as a direct set-to-set
prediction problem. We further integrate a multi-scale decoder structure to
achieve a comprehensive understanding of spatial geometry information and
estimate depth maps in a coarse-to-fine manner. Moreover, an extra scene
understanding query is proposed to improve the estimation accuracy, which turns
out that models can implicitly learn useful information from an auxiliary
environment classification task. Extensive experiments on the KITTI, NYU, and
SUN RGB-D datasets demonstrate that BinsFormer surpasses state-of-the-art
monocular depth estimation methods with prominent margins. Code and pretrained
models will be made publicly available at
\url{https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox}.
- Abstract(参考訳): 単眼深度推定はコンピュータビジョンの基本的な課題であり、注目を集めている。
近年、予測確率分布と離散ビンの線形結合により連続的な深さを推定するモデル性能を高めるための分類回帰タスクとして再編成されている。
本稿では,分類回帰に基づく深度推定に適したBinsFormerという新しいフレームワークを提案する。
主に、特定のタスクにおいて2つの重要なコンポーネントに焦点を当てている。
1)適応型ビンと適切な生成
2)確率分布とビン予測との十分な相互作用
具体的には, ビン生成にトランスフォーマデコーダを用い, 直接セットツーセット予測問題として新規に検討した。
さらに,空間幾何学情報を包括的に理解し,奥行きマップを粗い方法で推定するために,マルチスケールデコーダ構造を統合する。
さらに,推定精度を向上させるために,補助環境分類タスクから有用な情報を暗黙的に学習できる追加的なシーン理解クエリを提案する。
KITTI、NYU、SUN RGB-Dデータセットに関する大規模な実験は、BinsFormerが最先端のモノクル深度推定法をはるかに上回っていることを示している。
コードおよび事前トレーニングされたモデルは、 \url{https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox}で公開される。
関連論文リスト
- RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - IEBins: Iterative Elastic Bins for Monocular Depth Estimation [25.71386321706134]
分類回帰に基づくMDEのためのイテレーティブ弾性ビン(IEBins)の概念を提案する。
提案する IEBins は,探索範囲を段階的に最適化することで,高品質な深度を探索することを目的としている。
我々は,機能抽出器とGRUアーキテクチャの恩恵を受ける反復的フレームワークからなる専用フレームワークを開発する。
論文 参考訳(メタデータ) (2023-09-25T13:48:39Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - AdaBins: Depth Estimation using Adaptive Bins [43.07310038858445]
本稿では,画像毎の中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。
以上の結果から,いくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
論文 参考訳(メタデータ) (2020-11-28T14:40:45Z) - DESC: Domain Adaptation for Depth Estimation via Semantic Consistency [24.13837264978472]
単眼深度推定モデルの訓練のための領域適応手法を提案する。
セマンティックな予測と低レベルのエッジ機能を活用することで、ドメインギャップを埋める。
本手法は,単眼深度推定のための標準領域適応ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2020-09-03T10:54:05Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。