論文の概要: Stereo Object Matching Network
- arxiv url: http://arxiv.org/abs/2103.12498v1
- Date: Tue, 23 Mar 2021 12:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:52:22.539908
- Title: Stereo Object Matching Network
- Title(参考訳): ステレオオブジェクトマッチングネットワーク
- Authors: Jaesung Choe, Kyungdon Joo, Francois Rameau, In So Kweon
- Abstract要約: 本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
- 参考スコア(独自算出の注目度): 78.35697025102334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a stereo object matching method that exploits both 2D
contextual information from images as well as 3D object-level information.
Unlike existing stereo matching methods that exclusively focus on the
pixel-level correspondence between stereo images within a volumetric space
(i.e., cost volume), we exploit this volumetric structure in a different
manner. The cost volume explicitly encompasses 3D information along its
disparity axis, therefore it is a privileged structure that can encapsulate the
3D contextual information from objects. However, it is not straightforward
since the disparity values map the 3D metric space in a non-linear fashion.
Thus, we present two novel strategies to handle 3D objectness in the cost
volume space: selective sampling (RoISelect) and 2D-3D fusion
(fusion-by-occupancy), which allow us to seamlessly incorporate 3D object-level
information and achieve accurate depth performance near the object boundary
regions. Our depth estimation achieves competitive performance in the KITTI
dataset and the Virtual-KITTI 2.0 dataset.
- Abstract(参考訳): 本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
ボリューム空間内のステレオ画像間のピクセルレベルの対応(すなわちコストボリューム)のみに焦点を当てた既存のステレオマッチング手法とは異なり、このボリューム構造を異なる方法で活用する。
コストボリュームはその相違軸に沿って3D情報を明示的に包含するので、オブジェクトから3Dコンテキスト情報をカプセル化できる特権構造である。
しかし、不均一値が3次元距離空間を非線形にマッピングするので、それは簡単ではない。
そこで我々は,3次元オブジェクトレベルの情報をシームレスに統合し,オブジェクト境界領域付近で正確な深度性能を実現するために,選択サンプリング(RoISelect)と2D-3D融合(fusion-by-occupancy)の2つの新しい手法を提案する。
我々の深度推定は、KITTIデータセットとVirtual-KITTI 2.0データセットの競合性能を達成する。
関連論文リスト
- CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction [2.0375637582248136]
Cross-View Center Point-Fusionは、3Dオブジェクト検出を行う最先端モデルである。
我々のアーキテクチャは、以前に確立されたアルゴリズム、クロスビュートランスフォーマー、CenterPointのアスペクトを利用する。
論文 参考訳(メタデータ) (2024-10-15T02:55:07Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - OCM3D: Object-Centric Monocular 3D Object Detection [35.804542148335706]
モノクロ3次元物体検出のための新しい物体中心ボクセル表現を提案する。
具体的には、各オブジェクトの提案に基づいてボクセルを構築し、それらのサイズは点の3次元空間分布によって適応的に決定される。
本手法は、最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-04-13T09:15:40Z) - Stereo CenterNet based 3D Object Detection for Autonomous Driving [2.508414661327797]
ステレオ画像の幾何学的情報を用いた3次元物体検出手法Stereo CenterNetを提案する。
Stereo CenterNetは、空間内のオブジェクトの3D境界ボックスの4つの意味キーポイントを予測し、3D空間におけるオブジェクトのバウンディングボックスを復元するために、2D左の右ボックス、3D次元、向き、キーポイントを使用する。
KITTIデータセットを用いた実験により, ステレオ幾何に基づく最先端手法と比較して, 高速かつ高精度なトレードオフを実現することができた。
論文 参考訳(メタデータ) (2021-03-20T02:18:49Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。