論文の概要: Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation
- arxiv url: http://arxiv.org/abs/2003.11303v1
- Date: Wed, 25 Mar 2020 10:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:35:02.696465
- Title: Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation
- Title(参考訳): 関節物体検出と視点推定のための円筒畳み込みネットワーク
- Authors: Sunghun Joung, Seungryong Kim, Hanjae Kim, Minsu Kim, Ig-Jae Kim,
Junghyun Cho, Kwanghoon Sohn
- Abstract要約: 3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
- 参考スコア(独自算出の注目度): 76.21696417873311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing techniques to encode spatial invariance within deep convolutional
neural networks only model 2D transformation fields. This does not account for
the fact that objects in a 2D space are a projection of 3D ones, and thus they
have limited ability to severe object viewpoint changes. To overcome this
limitation, we introduce a learnable module, cylindrical convolutional networks
(CCNs), that exploit cylindrical representation of a convolutional kernel
defined in the 3D space. CCNs extract a view-specific feature through a
view-specific convolutional kernel to predict object category scores at each
viewpoint. With the view-specific feature, we simultaneously determine
objective category and viewpoints using the proposed sinusoidal soft-argmax
module. Our experiments demonstrate the effectiveness of the cylindrical
convolutional networks on joint object detection and viewpoint estimation.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク内の空間不変性をエンコードする既存の手法は、モデル2d変換フィールドのみである。
これは、2次元空間のオブジェクトが3次元空間の投影であるという事実を考慮せず、オブジェクトの視点の変化を厳しくする能力に制限がある。
この制限を克服するために,3次元空間で定義された畳み込み核の円柱表現を利用する学習可能なモジュールであるシリンダ畳み込みネットワーク(ccns)を導入する。
ccnはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点でオブジェクトカテゴリスコアを予測する。
ビュー特有の特徴により,提案する正弦波ソフトアルグマックスモジュールを用いて,客観的なカテゴリーと視点を同時に決定する。
本実験は,複合物体検出と視点推定における円柱畳み込みネットワークの有効性を示す。
関連論文リスト
- PMPNet: Pixel Movement Prediction Network for Monocular Depth Estimation in Dynamic Scenes [7.736445799116692]
動的シーンにおける単眼深度推定のための新しい手法を提案する。
まず,動的シーンにおける物体の運動軌跡の任意性について理論的に検討する。
エッジ周辺の深度不整合を克服するために,変形可能なサポートウィンドウモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-04T03:42:29Z) - Spherical Frustum Sparse Convolution Network for LiDAR Point Cloud Semantic Segmentation [62.258256483231484]
LiDARポイントクラウドセマンティックセグメンテーションにより、ロボットは周囲の環境のきめ細かいセマンティック情報を得ることができる。
多くの研究が2Dイメージ上にポイントクラウドを投影し、LiDARポイントクラウドセマンティックセグメンテーションのための2D畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマーを採用する。
本稿では,情報損失の定量化を回避するために,新しい球状フラストラム構造を提案する。
論文 参考訳(メタデータ) (2023-11-29T09:55:13Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Spatially Invariant Unsupervised 3D Object Segmentation with Graph
Neural Networks [23.729853358582506]
本研究では,空間混合モデルとして点雲をモデル化するフレームワークSPAIR3Dを提案する。
変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習する。
実験の結果,SPAIR3Dは外見情報のない可変物体を検出・分割できることがわかった。
論文 参考訳(メタデータ) (2021-06-10T09:20:16Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。