論文の概要: Predicting Relative Depth between Objects from Semantic Features
- arxiv url: http://arxiv.org/abs/2101.04626v1
- Date: Tue, 12 Jan 2021 17:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:53:22.068231
- Title: Predicting Relative Depth between Objects from Semantic Features
- Title(参考訳): 意味的特徴から物体間の相対的深さの予測
- Authors: Stefan Cassar, Adrian Muscat, Dylan Seychell
- Abstract要約: 2D画像に描かれた物体の3D深度は、そのような特徴の一つです。
この領域における技術の現状は、ステレオ画像データに基づいて訓練された複雑なニューラルネットワークモデルであり、ピクセルごとの深さを予測する。
モノディープスモデルから計算した相対深度に対する相対深度精度の14%の総合的な増加が達成された。
- 参考スコア(独自算出の注目度): 2.127049691404299
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision and language tasks such as Visual Relation Detection and Visual
Question Answering benefit from semantic features that afford proper grounding
of language. The 3D depth of objects depicted in 2D images is one such feature.
However it is very difficult to obtain accurate depth information without
learning the appropriate features, which are scene dependent. The state of the
art in this area are complex Neural Network models trained on stereo image data
to predict depth per pixel. Fortunately, in some tasks, its only the relative
depth between objects that is required. In this paper the extent to which
semantic features can predict course relative depth is investigated. The
problem is casted as a classification one and geometrical features based on
object bounding boxes, object labels and scene attributes are computed and used
as inputs to pattern recognition models to predict relative depth. i.e behind,
in-front and neutral. The results are compared to those obtained from averaging
the output of the monodepth neural network model, which represents the
state-of-the art. An overall increase of 14% in relative depth accuracy over
relative depth computed from the monodepth model derived results is achieved.
- Abstract(参考訳): 視覚関係検出や視覚的質問応答といった視覚および言語タスクは、言語を適切に接地できる意味的特徴から恩恵を受ける。
2次元画像で描かれた物体の3次元深度はそのような特徴である。
しかし,シーン依存の適切な特徴を学習することなく正確な深度情報を得るのは難しい。
この領域における技術の現状は、ステレオ画像データに基づいて訓練された複雑なニューラルネットワークモデルであり、ピクセルごとの深さを予測する。
幸いなことに、いくつかのタスクでは、必要なオブジェクト間の相対的な深さのみである。
本稿では,意味的特徴がコース相対深さを予測できる程度について検討する。
この問題を分類として、オブジェクト境界ボックスに基づく幾何学的特徴として、オブジェクトラベルとシーン属性を計算し、パターン認識モデルの入力として使用して相対深さを予測する。
後ろに、正面に、中立に。
結果は,最先端技術を表すモノデプスニューラルネットワークモデルの出力を平均化した結果と比較する。
モノディープスモデルから計算した相対深度に対する相対深度精度の14%の総合的な増加が達成された。
関連論文リスト
- Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection [38.96129204108353]
いくつかの単分子3D検出技術は、深度推定タスクからの補助深度マップに依存している。
本稿では,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T13:32:53Z) - Source-free Depth for Object Pop-out [113.24407776545652]
現代の学習に基づく手法は、野生での推論による有望な深度マップを提供する。
本研究では,オブジェクトの3次元前の「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。
8つのデータセットに対する我々の実験は、性能と一般化性の両方の観点から、我々の方法の利点を一貫して示している。
論文 参考訳(メタデータ) (2022-12-10T21:57:11Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection [34.01288862240829]
単眼の3D検出は、低コストで設定の単純さのため、コミュニティから多くの注目を集めている。
最も難しいサブタスクは、インスタンスの深さ推定にある。
本稿では,インスタンスの視覚表面深度とインスタンス属性深度の組み合わせにより,インスタンスの深度を再構成する。
論文 参考訳(メタデータ) (2022-07-18T11:49:18Z) - Monocular Depth Estimation Using Cues Inspired by Biological Vision
Systems [22.539300644593936]
単眼深度推定(MDE)は、シーンのRGB画像を同じカメラビューから画素幅の深度マップに変換することを目的としている。
MDEタスクの一部は、画像内のどの視覚的手がかりを深度推定に使用できるか、どのように使うかを学ぶことである。
モデルに視覚的キュー情報を明示的に注入することは深度推定に有用であることを示す。
論文 参考訳(メタデータ) (2022-04-21T19:42:36Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss [29.798579906253696]
本研究では、コンブネットがラベルのない画像で幾何学的情報を抽出するのを支援するために、運動量差の少ない勾配に基づく自己教師付き学習アルゴリズムを提案する。
提案手法は,従来の自己教師付き学習アルゴリズムよりも優れ,ラベル付きデータの効率を3倍に向上させる。
論文 参考訳(メタデータ) (2020-11-06T06:47:19Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。