論文の概要: NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and
Pose Annotations
- arxiv url: http://arxiv.org/abs/2306.09109v2
- Date: Fri, 13 Oct 2023 16:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:36:08.317345
- Title: NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and
Pose Annotations
- Title(参考訳): NAVI: 高品質な3次元形状とポスアノテーションを持つカテゴリ非依存画像コレクション
- Authors: Varun Jampani, Kevis-Kokitsi Maninis, Andreas Engelhardt, Arjun
Karpur, Karen Truong, Kyle Sargent, Stefan Popov, Andr\'e Araujo, Ricardo
Martin-Brualla, Kaushal Patel, Daniel Vlasic, Vittorio Ferrari, Ameesh
Makadia, Ce Liu, Yuanzhen Li, Howard Zhou
- Abstract要約: NAVIは、高品質な3Dスキャンと画像ごとの2D-3Dアライメントを備えたカテゴリに依存しない画像コレクションの新しいデータセットである。
これらの2D-3Dアライメントにより,高密度画素対応,深度,セグメンテーションマップなどの正確な微分アノテーションを抽出できる。
- 参考スコア(独自算出の注目度): 64.95582364215548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in neural reconstruction enable high-quality 3D object
reconstruction from casually captured image collections. Current techniques
mostly analyze their progress on relatively simple image collections where
Structure-from-Motion (SfM) techniques can provide ground-truth (GT) camera
poses. We note that SfM techniques tend to fail on in-the-wild image
collections such as image search results with varying backgrounds and
illuminations. To enable systematic research progress on 3D reconstruction from
casual image captures, we propose NAVI: a new dataset of category-agnostic
image collections of objects with high-quality 3D scans along with per-image
2D-3D alignments providing near-perfect GT camera parameters. These 2D-3D
alignments allow us to extract accurate derivative annotations such as dense
pixel correspondences, depth and segmentation maps. We demonstrate the use of
NAVI image collections on different problem settings and show that NAVI enables
more thorough evaluations that were not possible with existing datasets. We
believe NAVI is beneficial for systematic research progress on 3D
reconstruction and correspondence estimation. Project page:
https://navidataset.github.io
- Abstract(参考訳): ニューラル再構成の最近の進歩は、カジュアルにキャプチャされた画像コレクションから高品質な3Dオブジェクトの再構築を可能にする。
現在の技術は、比較的単純な画像収集の進捗を分析し、SfM(Structure-from-Motion)技術はGTカメラのポーズを提供することができる。
sfm技術は,背景や照明の異なる画像検索結果など,野生のイメージコレクションでは失敗する傾向がある。
カジュアル・イメージ・キャプチャーからの3D再構成を体系的に研究するために,高品質な3Dスキャンと画像毎の2D-3Dアライメントにより,ほぼ完璧なGTカメラパラメータを提供するNAVIを提案する。
これらの2D-3Dアライメントにより,高密度画素対応,深度,セグメンテーションマップなどの正確な微分アノテーションを抽出できる。
NAVIイメージコレクションを異なる問題設定で使用し、NAVIが既存のデータセットでは不可能なより詳細な評価を可能にすることを示す。
NAVIは3次元再構成と対応推定の体系的な研究の進展に有用であると考えている。
プロジェクトページ: https://navidataset.github.io
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - TP3M: Transformer-based Pseudo 3D Image Matching with Reference [0.9831489366502301]
トランスフォーマーを用いた擬似3次元画像マッチング手法を提案する。
ソース画像から抽出した2D特徴を参照画像の助けを借りて3D特徴にアップグレードし、目的地画像から抽出した2D特徴にマッチする。
複数のデータセットに対する実験結果から, 提案手法は, ホモグラフィ推定, ポーズ推定, 視覚的ローカライゼーションのタスクにおいて, 最先端の課題を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-14T08:56:09Z) - DUSt3R: Geometric 3D Vision Made Easy [9.088432378237606]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - Visual Geometry Grounded Deep Structure From Motion [20.203320509695306]
本稿では,各コンポーネントが完全に微分可能で,エンドツーエンドでトレーニング可能な,新しいディープパイプラインVGGSfMを提案する。
まず, 深部2次元点追跡の最近の進歩をベースとして, 画素精度の高いトラックを抽出し, ペアマッチングのチェーン化の必要性を解消する。
私たちは、CO3D、IMC Phototourism、ETH3Dという3つの一般的なデータセットで最先端のパフォーマンスを達成しました。
論文 参考訳(メタデータ) (2023-12-07T18:59:52Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2022-04-25T12:10:34Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。