論文の概要: How semantic and geometric information mutually reinforce each other in
ToF object localization
- arxiv url: http://arxiv.org/abs/2008.12002v1
- Date: Thu, 27 Aug 2020 09:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:01:53.807496
- Title: How semantic and geometric information mutually reinforce each other in
ToF object localization
- Title(参考訳): tofオブジェクトローカライゼーションにおける意味的・幾何学的情報の相互強化
- Authors: Antoine Vanderschueren, Victor Joos, Christophe De Vleeschouwer
- Abstract要約: 本研究では,光の時間(ToF)センサによって提供される強度・深度情報画像から3Dオブジェクトをローカライズする手法を提案する。
提案手法は,従来のCNNアーキテクチャと比較して,分割と局所化の精度を著しく向上する。
- 参考スコア(独自算出の注目度): 19.47618043504105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach to localize a 3D object from the intensity and
depth information images provided by a Time-of-Flight (ToF) sensor. Our method
uses two CNNs. The first one uses raw depth and intensity images as input, to
segment the floor pixels, from which the extrinsic parameters of the camera are
estimated. The second CNN is in charge of segmenting the object-of-interest. As
a main innovation, it exploits the calibration estimated from the prediction of
the first CNN to represent the geometric depth information in a coordinate
system that is attached to the ground, and is thus independent of the camera
elevation. In practice, both the height of pixels with respect to the ground,
and the orientation of normals to the point cloud are provided as input to the
second CNN. Given the segmentation predicted by the second CNN, the object is
localized based on point cloud alignment with a reference model. Our
experiments demonstrate that our proposed two-step approach improves
segmentation and localization accuracy by a significant margin compared to a
conventional CNN architecture, ignoring calibration and height maps, but also
compared to PointNet++.
- Abstract(参考訳): 本研究では,光の時間(ToF)センサによって提供される強度・深度情報画像から3Dオブジェクトをローカライズする手法を提案する。
我々の方法は2つのCNNを使う。
1つ目は、カメラの外部パラメータを推定するフロアピクセルを分割するために、入力として生の深度画像と強度画像を使用する。
第2のCNNは、関心のオブジェクトのセグメント化を担当している。
主な革新として、第1のCNNの予測から推定されるキャリブレーションを利用して、地上に取り付けられた座標系における幾何学的深度情報を表現する。
実際には、第2CNNへの入力として、地上に対する画素の高さと点雲に対する正規値の向きの両方が提供される。
第2のCNNによって予測されるセグメンテーションを考えると、オブジェクトは参照モデルとのポイントクラウドアライメントに基づいてローカライズされる。
提案手法は,従来のcnnアーキテクチャに比べて,キャリブレーションや高さマップを無視するだけでなく,pointnet++と比較して,セグメンテーションやローカライゼーションの精度をかなり向上させる。
関連論文リスト
- An evaluation of CNN models and data augmentation techniques in hierarchical localization of mobile robots [0.0]
本研究では,移動ロボットの階層的位置決めを行うために,CNNモデルの評価とデータ拡張を行う。
この意味では、バックボーンとして使用される様々な最先端CNNモデルのアブレーション研究を示す。
ロボットの視覚的ローカライゼーションに対処するために,様々なデータ拡張視覚効果を提案する。
論文 参考訳(メタデータ) (2024-07-15T10:20:00Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Random Padding Data Augmentation [23.70951896315126]
畳み込みニューラルネットワーク(CNN)は、画像内の異なる位置で同じ物体を学習する。
CNNにおける特徴情報の空間的情報の有用性はよく研究されていない。
我々はCNNを訓練するための新しいタイプのパディング手法であるランダムパディングを紹介する。
論文 参考訳(メタデータ) (2023-02-17T04:15:33Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose
Estimation [21.424035166174352]
最先端のアプローチでは、通常、異なるバックボーンを使用してRGBと深度画像の特徴を抽出する。
2つの独立したバックボーンを使用する重要な理由は、"投射分解"の問題である。
入力としてRGB-D画像とともに、余分なUVデータを明示的に取り出す、シンプルで効果的なUnixDを提案する。
論文 参考訳(メタデータ) (2022-03-28T07:05:27Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers [111.55817466296402]
我々は、カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ(PCL)を紹介する。
PCLは、エンドツーエンドのトレーニングと基礎となるニューラルネットワークのパラメータ数を残しながら、位置依存的な視点効果を決定論的に除去する。
PCLは、既存の3D再構成ネットワークを幾何学的に認識することで、容易に精度を向上させる手段を提供する。
論文 参考訳(メタデータ) (2020-11-27T08:48:43Z) - Depth-Adapted CNN for RGB-D cameras [0.3727773051465455]
従来の2次元畳み込みニューラルネットワーク(CNN)は線形フィルタを適用して入力画像から特徴を抽出する。
我々は,RGB-Dカメラの奥行き情報を用いて,従来のRGB CNN手法の改善に取り組み,その課題を解決した。
本稿では,CNNアーキテクチャにおける測光情報と幾何情報の両方を記述するための,新規で汎用的な手順を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。