論文の概要: Pix2Point: Learning Outdoor 3D Using Sparse Point Clouds and Optimal
Transport
- arxiv url: http://arxiv.org/abs/2107.14498v1
- Date: Fri, 30 Jul 2021 09:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:01:01.849659
- Title: Pix2Point: Learning Outdoor 3D Using Sparse Point Clouds and Optimal
Transport
- Title(参考訳): Pix2Point: スパースポイントクラウドと最適輸送を用いた屋外3D学習
- Authors: R\'emy Leroy, Pauline Trouv\'e-Peloux, Fr\'ed\'eric Champagnat,
Bertrand Le Saux, Marcela Carvalho
- Abstract要約: 最近 深層学習は 単眼深度推定に 優れた結果をもたらしました
我々は,モノクロ3Dポイントクラウド予測のためのディープラーニングベースのアプローチであるPix2Pointを提案する。
提案手法は,2次元3次元ハイブリッドニューラルネットワークアーキテクチャと最適輸送分散の教師付きエンドツーエンド化に依存している。
- 参考スコア(独自算出の注目度): 35.10680020334443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Good quality reconstruction and comprehension of a scene rely on 3D
estimation methods. The 3D information was usually obtained from images by
stereo-photogrammetry, but deep learning has recently provided us with
excellent results for monocular depth estimation. Building up a sufficiently
large and rich training dataset to achieve these results requires onerous
processing. In this paper, we address the problem of learning outdoor 3D point
cloud from monocular data using a sparse ground-truth dataset. We propose
Pix2Point, a deep learning-based approach for monocular 3D point cloud
prediction, able to deal with complete and challenging outdoor scenes. Our
method relies on a 2D-3D hybrid neural network architecture, and a supervised
end-to-end minimisation of an optimal transport divergence between point
clouds. We show that, when trained on sparse point clouds, our simple promising
approach achieves a better coverage of 3D outdoor scenes than efficient
monocular depth methods.
- Abstract(参考訳): 良質な再現とシーンの理解は3次元推定法に依存する。
3D情報は通常ステレオフォトグラム法で得られるが,近年,深層学習によって単眼深度推定の優れた結果が得られた。
これらの結果を達成するには、十分に大きくてリッチなトレーニングデータセットを構築する必要がある。
本稿では, スパース基底トラスデータセットを用いて, 単分子データから屋外3次元点雲を学習する問題に対処する。
我々は、単眼の3Dポイントクラウド予測のためのディープラーニングベースのアプローチであるPix2Pointを提案し、完全かつ挑戦的な屋外シーンに対処できる。
提案手法は, 2次元3次元ハイブリッドニューラルネットワークアーキテクチャと, 点雲間の最適輸送分散の教師付きエンドツーエンド化に依存する。
スパース・ポイント・クラウドでトレーニングすると,より効率的な単分子深度法よりも3次元屋外シーンのカバレッジが向上することを示す。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文 参考訳(メタデータ) (2022-11-30T12:50:40Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Points2NeRF: Generating Neural Radiance Fields from 3D point cloud [0.0]
ニューラルラジアンス場(NeRF)として3次元物体を表現することを提案する。
ハイパーネットワークのパラダイムを活用して、モデルをトレーニングして、関連するカラー値を持つ3Dポイントクラウドを取ります。
提案手法は効率的な3次元オブジェクト表現を提供し,既存手法に対するいくつかの利点を提供する。
論文 参考訳(メタデータ) (2022-06-02T20:23:33Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。