論文の概要: Object-aware Monocular Depth Prediction with Instance Convolutions
- arxiv url: http://arxiv.org/abs/2112.01521v1
- Date: Thu, 2 Dec 2021 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:06:54.956987
- Title: Object-aware Monocular Depth Prediction with Instance Convolutions
- Title(参考訳): インスタンスの畳み込みによる物体認識単眼深度予測
- Authors: Enis Simsar, Evin P{\i}nar \"Ornek, Fabian Manhardt, Helisa Dhamo,
Nassir Navab, Federico Tombari
- Abstract要約: 本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
- 参考スコア(独自算出の注目度): 72.98771405534937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of deep learning, estimating depth from a single RGB image
has recently received a lot of attention, being capable of empowering many
different applications ranging from path planning for robotics to computational
cinematography. Nevertheless, while the depth maps are in their entirety fairly
reliable, the estimates around object discontinuities are still far from
satisfactory. This can be contributed to the fact that the convolutional
operator naturally aggregates features across object discontinuities, resulting
in smooth transitions rather than clear boundaries. Therefore, in order to
circumvent this issue, we propose a novel convolutional operator which is
explicitly tailored to avoid feature aggregation of different object parts. In
particular, our method is based on estimating per-part depth values by means of
superpixels. The proposed convolutional operator, which we dub "Instance
Convolution", then only considers each object part individually on the basis of
the estimated superpixels. Our evaluation with respect to the NYUv2 as well as
the iBims dataset clearly demonstrates the superiority of Instance Convolutions
over the classical convolution at estimating depth around occlusion boundaries,
while producing comparable results elsewhere. Code will be made publicly
available upon acceptance.
- Abstract(参考訳): ディープラーニングの出現に伴い、単一のRGB画像から深度を推定することは、最近多くの注目を集めており、ロボット工学の経路計画から計算撮影まで、さまざまな応用に力を入れている。
それでも、深度マップは全体としてかなり信頼性が高いが、物体の不連続性に関する推定はまだまだ満足できない。
これは、畳み込み演算子が自然にオブジェクトの不連続性全体に特徴を集約し、明確な境界ではなく滑らかな遷移をもたらすという事実に寄与することができる。
そこで、この問題を回避するために、異なる対象部品の特徴集約を避けるために明示的に調整された新しい畳み込み演算子を提案する。
特に,本手法は,部分ごとの深度をスーパーピクセルで推定する。
提案する畳み込み演算子は、"instance convolution"と仮定し、推定されたスーパーピクセルに基づいて、各対象部分のみを個別に考慮する。
我々は,nyuv2 および ibims データセットに対する評価により,咬合境界付近の深さを推定する古典的な畳み込みよりもインスタンス畳み込みが優れていることを明確に示し,他でも比較結果が得られた。
コードは受理次第公開される予定だ。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Revisiting Deformable Convolution for Depth Completion [40.45231083385708]
深度完備化は、スパース深度マップから高品質の高密度深度マップを作成することを目的としている。
従来の作業では、通常、RGBイメージをガイダンスとして使用し、推定された粗い深度マップを洗練するための反復的な空間伝播を導入している。
変形可能なカーネルの畳み込みを単一パスリファインメントモジュールとして活用する,効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-03T17:59:06Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - AdaBins: Depth Estimation using Adaptive Bins [43.07310038858445]
本稿では,画像毎の中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。
以上の結果から,いくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
論文 参考訳(メタデータ) (2020-11-28T14:40:45Z) - Wasserstein Distances for Stereo Disparity Estimation [62.09272563885437]
既定義の離散値の集合上の分布を出力する、奥行き推定や不均一推定への既存のアプローチ。
これにより、真の深さや差がこれらの値と一致しない場合に、不正確な結果をもたらす。
任意の深さの値を出力できる新しいニューラルネットワークアーキテクチャを用いて、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-07-06T21:37:50Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。