論文の概要: Object Detection on Single Monocular Images through Canonical
Correlation Analysis
- arxiv url: http://arxiv.org/abs/2002.05349v1
- Date: Thu, 13 Feb 2020 05:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:20:52.298494
- Title: Object Detection on Single Monocular Images through Canonical
Correlation Analysis
- Title(参考訳): 正準相関解析による単眼画像の物体検出
- Authors: Zifan Yu and Suya You
- Abstract要約: 点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。
本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.4722706398428493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Without using extra 3-D data like points cloud or depth images for providing
3-D information, we retrieve the 3-D object information from single monocular
images. The high-quality predicted depth images are recovered from single
monocular images, and it is fed into the 2-D object proposal network with
corresponding monocular images. Most existing deep learning frameworks with
two-streams input data always fuse separate data by concatenating or adding,
which views every part of a feature map can contribute equally to the whole
task. However, when data are noisy, and too much information is redundant,
these methods no longer produce predictions or classifications efficiently. In
this report, we propose a two-dimensional CCA(canonical correlation analysis)
framework to fuse monocular images and corresponding predicted depth images for
basic computer vision tasks like image classification and object detection.
Firstly, we implemented different structures with one-dimensional CCA and
Alexnet to test the performance on the image classification task. And then, we
applied one of these structures with 2D-CCA for object detection. During these
experiments, we found that our proposed framework behaves better when taking
predicted depth images as inputs with the model trained from ground truth
depth.
- Abstract(参考訳): 点雲や深度画像などの余分な3次元データを3次元情報として使わずに,単分子画像から3次元オブジェクト情報を検索する。
高品質な予測深度画像は単眼画像から復元され、対応する単眼画像とともに2次元オブジェクト提案ネットワークに供給される。
2ストリームの入力データを持つ既存のディープラーニングフレームワークは、常に分離したデータを結合または追加することによって融合し、機能マップのすべての部分がタスク全体に対して等しく寄与する。
しかし、データが騒がしく、情報が冗長すぎると、これらの手法は予測や分類を効率的に生成しなくなる。
本稿では,画像分類や物体検出などの基本的なコンピュータビジョンタスクにおいて,単眼画像と対応する奥行き画像とを融合させる2次元cca(canonical correlation analysis)フレームワークを提案する。
まず,画像分類タスクの性能をテストするために,一次元ccaとalexnetを用いて異なる構造を実装した。
そして、オブジェクト検出に2d-ccaを用いた構造を適用した。
これらの実験において,提案手法は,地底深度から学習したモデルを用いて,予測深度画像の入力を行う際に,よりよい振る舞いを示すことがわかった。
関連論文リスト
- Robust 3D Point Clouds Classification based on Declarative Defenders [18.51700931775295]
3Dポイントの雲は非構造的でスパースであり、2Dイメージは構造的で密度が高い。
本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。
提案手法は敵攻撃に対する高い精度と堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-13T01:32:38Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation
Estimation [0.0]
本稿では,単眼カメラで撮影した2次元画像から3次元物体検出モデルを構築し,推定した鳥眼視高度マップと物体特徴の深部表現を組み合わせることを目的とする。
提案したモデルには、バックエンドネットワークとして事前トレーニングされたResNet-50ネットワークと、さらに3つのブランチがある。
論文 参考訳(メタデータ) (2020-11-24T18:01:57Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。