論文の概要: PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers
- arxiv url: http://arxiv.org/abs/2011.13607v2
- Date: Thu, 15 Apr 2021 17:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:13:46.540736
- Title: PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers
- Title(参考訳): PCLs:3Dポッドの形状認識型ニューラルレコンストラクション
- Authors: Frank Yu, Mathieu Salzmann, Pascal Fua, Helge Rhodin
- Abstract要約: 我々は、カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ(PCL)を紹介する。
PCLは、エンドツーエンドのトレーニングと基礎となるニューラルネットワークのパラメータ数を残しながら、位置依存的な視点効果を決定論的に除去する。
PCLは、既存の3D再構成ネットワークを幾何学的に認識することで、容易に精度を向上させる手段を提供する。
- 参考スコア(独自算出の注目度): 111.55817466296402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local processing is an essential feature of CNNs and other neural network
architectures - it is one of the reasons why they work so well on images where
relevant information is, to a large extent, local. However, perspective effects
stemming from the projection in a conventional camera vary for different global
positions in the image. We introduce Perspective Crop Layers (PCLs) - a form of
perspective crop of the region of interest based on the camera geometry - and
show that accounting for the perspective consistently improves the accuracy of
state-of-the-art 3D pose reconstruction methods. PCLs are modular neural
network layers, which, when inserted into existing CNN and MLP architectures,
deterministically remove the location-dependent perspective effects while
leaving end-to-end training and the number of parameters of the underlying
neural network unchanged. We demonstrate that PCL leads to improved 3D human
pose reconstruction accuracy for CNN architectures that use cropping
operations, such as spatial transformer networks (STN), and, somewhat
surprisingly, MLPs used for 2D-to-3D keypoint lifting. Our conclusion is that
it is important to utilize camera calibration information when available, for
classical and deep-learning-based computer vision alike. PCL offers an easy way
to improve the accuracy of existing 3D reconstruction networks by making them
geometry aware. Our code is publicly available at
github.com/yu-frank/PerspectiveCropLayers.
- Abstract(参考訳): ローカル処理は、CNNや他のニューラルネットワークアーキテクチャにとって不可欠な機能である。
しかし、従来のカメラの投影から生じる視点効果は、画像内の異なる大域的な位置によって異なる。
カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ (PCL) を導入し, パースペクティブを考慮すれば, 最先端の3Dポーズ再構成手法の精度が一貫して向上することを示す。
PCLはモジュラーニューラルネットワーク層であり、既存のCNNとMLPアーキテクチャに挿入されると、エンドツーエンドのトレーニングを残しながら位置依存の視点効果を決定論的に排除し、基盤となるニューラルネットワークのパラメータの数も変化しない。
空間変圧器ネットワーク(STN)などの収穫操作を利用するCNNアーキテクチャでは,PCLにより3次元人間のポーズ復元精度が向上し,やや驚くべきことに2次元から3次元のキーポイントリフトに使用されるMLPが得られた。
我々の結論は,古典的,深層学習型コンピュータビジョンにもカメラキャリブレーション情報を活用することが重要であるということだ。
pclは、既存の3dリコンストラクションネットワークの精度を向上させるための簡単な方法を提供する。
私たちのコードはgithub.com/yu-frank/PerspectiveCropLayersで公開されています。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - SGL: Structure Guidance Learning for Camera Localization [7.094881396940598]
本稿では,SGL(Structure Guidance Bundle)と呼ばれるネットワークアーキテクチャを提案する。
本研究では、シーン予測に焦点をあて、受容分岐と構造分岐を利用して高レベル特徴と低レベル特徴の両方を抽出するSGLというネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:20:29Z) - Decomposing 3D Neuroimaging into 2+1D Processing for Schizophrenia
Recognition [25.80846093248797]
我々は2+1Dフレームワークで3Dデータを処理し、巨大なImageNetデータセット上に事前トレーニングされた強力な2D畳み込みニューラルネットワーク(CNN)ネットワークを利用して3Dニューロイメージング認識を実現することを提案する。
特に3次元磁気共鳴イメージング(MRI)の計測値は、隣接するボクセル位置に応じて2次元スライスに分解される。
グローバルプーリングは、アクティベーションパターンが機能マップ上にわずかに分散されているため、冗長な情報を除去するために適用される。
2次元CNNモデルにより処理されていない3次元の文脈情報を集約するために,チャネルワイドおよびスライスワイズ畳み込みを提案する。
論文 参考訳(メタデータ) (2022-11-21T15:22:59Z) - PIG-Net: Inception based Deep Learning Architecture for 3D Point Cloud
Segmentation [0.9137554315375922]
そこで我々はPIG-Netと呼ばれるインセプションに基づくディープネットワークアーキテクチャを提案し,点雲の局所的および大域的幾何学的詳細を効果的に特徴付ける。
我々は2つの最先端データセット上でPIG-Netアーキテクチャの徹底的な実験的解析を行う。
論文 参考訳(メタデータ) (2021-01-28T13:27:55Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。