論文の概要: AdaBins: Depth Estimation using Adaptive Bins
- arxiv url: http://arxiv.org/abs/2011.14141v1
- Date: Sat, 28 Nov 2020 14:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 19:38:50.814802
- Title: AdaBins: Depth Estimation using Adaptive Bins
- Title(参考訳): AdaBins: Adaptive Bins を用いた深さ推定
- Authors: Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka
- Abstract要約: 本稿では,画像毎の中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。
以上の結果から,いくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
- 参考スコア(独自算出の注目度): 43.07310038858445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of estimating a high quality dense depth map from a
single RGB input image. We start out with a baseline encoder-decoder
convolutional neural network architecture and pose the question of how the
global processing of information can help improve overall depth estimation. To
this end, we propose a transformer-based architecture block that divides the
depth range into bins whose center value is estimated adaptively per image. The
final depth values are estimated as linear combinations of the bin centers. We
call our new building block AdaBins. Our results show a decisive improvement
over the state-of-the-art on several popular depth datasets across all metrics.
We also validate the effectiveness of the proposed block with an ablation study
and provide the code and corresponding pre-trained weights of the new
state-of-the-art model.
- Abstract(参考訳): 単一のRGB入力画像から高品質の高密度深度マップを推定する問題に対処する。
まず、ベースラインエンコーダ/デコーダ畳み込みニューラルネットワークアーキテクチャから始め、情報のグローバル処理が全体的な深さ推定にどのように役立つかという疑問を提起する。
そこで本研究では,画像毎に中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。
最終深度値はビン中心の線形結合として推定される。
新しいビルディングブロックをAdaBinsと呼びます。
以上の結果から,すべての指標にまたがるいくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
また,提案ブロックの有効性をアブレーション実験により検証し,新しい最先端モデルのコードとそれに対応する事前学習重みを与える。
関連論文リスト
- Progressive Depth Decoupling and Modulating for Flexible Depth Completion [28.693100885012008]
画像誘導深度補正は、疎LiDARデータとRGB画像から高密度深度マップを生成することを目的としている。
近年の手法では,2つのサブタスク(深度離散化と確率予測)で分類問題として再検討し,有望な性能を示した。
本研究では, 深度範囲をビンに漸進的に分離し, マルチスケールの深度マップを適応的に生成するプログレッシブ・ディープ・デカップリング・変調ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-15T13:45:33Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Revisiting Deformable Convolution for Depth Completion [40.45231083385708]
深度完備化は、スパース深度マップから高品質の高密度深度マップを作成することを目的としている。
従来の作業では、通常、RGBイメージをガイダンスとして使用し、推定された粗い深度マップを洗練するための反復的な空間伝播を導入している。
変形可能なカーネルの畳み込みを単一パスリファインメントモジュールとして活用する,効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-03T17:59:06Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - BinsFormer: Revisiting Adaptive Bins for Monocular Depth Estimation [46.678016537618845]
本稿では,分類回帰に基づく深度推定に適したBinsFormerという新しいフレームワークを提案する。
1)適応的なビンの適切な生成、2)確率分布とビン予測の間の十分な相互作用である。
KITTI、NYU、SUN RGB-Dデータセットの実験は、BinsFormerが最先端のモノクル深度推定法をはるかに上回っていることを示している。
論文 参考訳(メタデータ) (2022-04-03T04:38:02Z) - Object-aware Monocular Depth Prediction with Instance Convolutions [72.98771405534937]
本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:48Z) - Depth Completion using Plane-Residual Representation [84.63079529738924]
深度情報を最も近い深度平面ラベル$p$と残値$r$で解釈する新しい方法を紹介し,これをPlane-Residual (PR)表現と呼ぶ。
PR表現で深度情報を解釈し,それに対応する深度補完網を用いて,高速な計算により深度補完性能を向上させることができた。
論文 参考訳(メタデータ) (2021-04-15T10:17:53Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。