論文の概要: Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops
- arxiv url: http://arxiv.org/abs/2312.06594v1
- Date: Mon, 11 Dec 2023 18:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:33:00.902302
- Title: Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops
- Title(参考訳): 画像作物における遠近歪み誘起形状あいまいさの緩和
- Authors: Aditya Prakash, Arjun Gupta, Saurabh Gupta
- Abstract要約: 単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。
内在性を考慮した位置推定法を提案する。
ベンチマーク(KPE)は、画像とカメラの形状における作物の位置に関する情報を組み込んだベンチマークである。
NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの予測という3つの人気のある3D画像ベンチマークの実験は、KPEの利点を示している。
- 参考スコア(独自算出の注目度): 19.190270052301436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objects undergo varying amounts of perspective distortion as they move across
a camera's field of view. Models for predicting 3D from a single image often
work with crops around the object of interest and ignore the location of the
object in the camera's field of view. We note that ignoring this location
information further exaggerates the inherent ambiguity in making 3D inferences
from 2D images and can prevent models from even fitting to the training data.
To mitigate this ambiguity, we propose Intrinsics-Aware Positional Encoding
(KPE), which incorporates information about the location of crops in the image
and camera intrinsics. Experiments on three popular 3D-from-a-single-image
benchmarks: depth prediction on NYU, 3D object detection on KITTI & nuScenes,
and predicting 3D shapes of articulated objects on ARCTIC, show the benefits of
KPE.
- Abstract(参考訳): 物体は、カメラの視野を横切ると、様々な角度の歪みを受ける。
単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。
この位置情報を無視することは、2次元画像から3D推論を行う際の本来の曖昧さをさらに誇張し、モデルがトレーニングデータに適合することを防ぐことに留意する。
このあいまいさを軽減するために,画像とカメラの内在性における作物の位置に関する情報を組み込んだKPE(Intrinsics-Aware Positional Encoding)を提案する。
NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの3D形状予測という3つの一般的な3D画像ベンチマークの実験は、KPEの利点を示している。
関連論文リスト
- SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。