論文の概要: MACARONS: Mapping And Coverage Anticipation with RGB Online
Self-Supervision
- arxiv url: http://arxiv.org/abs/2303.03315v1
- Date: Mon, 6 Mar 2023 17:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:10:44.168776
- Title: MACARONS: Mapping And Coverage Anticipation with RGB Online
Self-Supervision
- Title(参考訳): MACARONS: RGBオンラインセルフスーパービジョンによるマッピングとカバレッジ予測
- Authors: Antoine Gu\'edon, Tom Monnier, Pascal Monasse and Vincent Lepetit
- Abstract要約: カラー画像のみから,新たな大規模環境の探索と3次元再構成を同時に行う方法を提案する。
これはNext Best View問題(NBV)と密接に関係しており、未知のシーンのカバレッジを改善するために、カメラの移動先を特定する必要がある。
本手法では,カラーカメラのみを必要としており,カラー画像から「ボリューム占有領域」を予測し,NBVを予測するために,自己監督方式で学習する。
- 参考スコア(独自算出の注目度): 22.840279412254873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method that simultaneously learns to explore new large
environments and to reconstruct them in 3D from color images only. This is
closely related to the Next Best View problem (NBV), where one has to identify
where to move the camera next to improve the coverage of an unknown scene.
However, most of the current NBV methods rely on depth sensors, need 3D
supervision and/or do not scale to large scenes. Our method requires only a
color camera and no 3D supervision. It simultaneously learns in a
self-supervised fashion to predict a "volume occupancy field" from color images
and, from this field, to predict the NBV. Thanks to this approach, our method
performs well on new scenes as it is not biased towards any training 3D data.
We demonstrate this on a recent dataset made of various 3D scenes and show it
performs even better than recent methods requiring a depth sensor, which is not
a realistic assumption for outdoor scenes captured with a flying drone.
- Abstract(参考訳): カラー画像のみから,新たな大規模環境の探索と3次元再構成を同時に行う方法を提案する。
これはNext Best View問題(NBV)と密接に関係しており、未知のシーンのカバレッジを改善するために、カメラの移動先を特定する必要がある。
しかし、現在のNBV手法のほとんどは深度センサーに依存しており、3Dの監視や大規模なシーンへのスケーリングは必要ではない。
私たちの方法はカラーカメラだけで、3D監視は不要です。
これは同時に自己教師方式で学習し、カラー画像から「体積占有場」を予測し、このフィールドからnbvを予測する。
このアプローチにより,本手法はトレーニング3Dデータに偏りがないため,新しいシーンでうまく機能する。
様々な3Dシーンからなる最近のデータセットでこれを実証し、近年の深度センサーを必要とする手法よりも優れた性能を示し、これは飛行ドローンで撮影する屋外シーンの現実的な仮定ではない。
関連論文リスト
- FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z) - SCONE: Surface Coverage Optimization in Unknown Environments by
Volumetric Integration [23.95135709027516]
次回ベストビュー計算(NBV)は、ロボット工学における長年の問題である。
体積表現上でモンテカルロ積分により表面積を最大化できることが示される。
入力はLidarシステムのような深度センサーで収集された任意の大きさの点雲と、カメラのポーズでNBVを予測する。
論文 参考訳(メタデータ) (2022-08-22T17:04:14Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Pix2Point: Learning Outdoor 3D Using Sparse Point Clouds and Optimal
Transport [35.10680020334443]
最近 深層学習は 単眼深度推定に 優れた結果をもたらしました
我々は,モノクロ3Dポイントクラウド予測のためのディープラーニングベースのアプローチであるPix2Pointを提案する。
提案手法は,2次元3次元ハイブリッドニューラルネットワークアーキテクチャと最適輸送分散の教師付きエンドツーエンド化に依存している。
論文 参考訳(メタデータ) (2021-07-30T09:03:39Z) - Gated3D: Monocular 3D Object Detection From Temporal Illumination Cues [28.806932489163888]
低コストな単分子ゲート型画像処理装置から時間的照度を利用した新しい3次元物体検出法を提案する。
提案手法は,1万km以上の運転データから得られたゲート画像を含む新しい3次元検出データセットを用いて評価する。
論文 参考訳(メタデータ) (2021-02-06T16:06:51Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras [13.24490469380487]
本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。
提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
論文 参考訳(メタデータ) (2020-02-21T03:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。