論文の概要: Visual Geometry Grounded Deep Structure From Motion
- arxiv url: http://arxiv.org/abs/2312.04563v1
- Date: Thu, 7 Dec 2023 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:23:05.823641
- Title: Visual Geometry Grounded Deep Structure From Motion
- Title(参考訳): 深部構造を運動から遠ざける視覚幾何学
- Authors: Jianyuan Wang, Nikita Karaev, Christian Rupprecht, David Novotny
- Abstract要約: 本稿では,各コンポーネントが完全に微分可能で,エンドツーエンドでトレーニング可能な,新しいディープパイプラインVGGSfMを提案する。
まず, 深部2次元点追跡の最近の進歩をベースとして, 画素精度の高いトラックを抽出し, ペアマッチングのチェーン化の必要性を解消する。
私たちは、CO3D、IMC Phototourism、ETH3Dという3つの一般的なデータセットで最先端のパフォーマンスを達成しました。
- 参考スコア(独自算出の注目度): 20.203320509695306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structure-from-motion (SfM) is a long-standing problem in the computer vision
community, which aims to reconstruct the camera poses and 3D structure of a
scene from a set of unconstrained 2D images. Classical frameworks solve this
problem in an incremental manner by detecting and matching keypoints,
registering images, triangulating 3D points, and conducting bundle adjustment.
Recent research efforts have predominantly revolved around harnessing the power
of deep learning techniques to enhance specific elements (e.g., keypoint
matching), but are still based on the original, non-differentiable pipeline.
Instead, we propose a new deep pipeline VGGSfM, where each component is fully
differentiable and thus can be trained in an end-to-end manner. To this end, we
introduce new mechanisms and simplifications. First, we build on recent
advances in deep 2D point tracking to extract reliable pixel-accurate tracks,
which eliminates the need for chaining pairwise matches. Furthermore, we
recover all cameras simultaneously based on the image and track features
instead of gradually registering cameras. Finally, we optimise the cameras and
triangulate 3D points via a differentiable bundle adjustment layer. We attain
state-of-the-art performance on three popular datasets, CO3D, IMC Phototourism,
and ETH3D.
- Abstract(参考訳): structure-from-motion (sfm) はコンピュータビジョンコミュニティにおける長年の問題であり、無拘束の2d画像群からカメラポーズとシーンの3d構造を再構築することを目的としている。
古典的なフレームワークはこの問題を段階的に解決し、キーポイントを検出してマッチングし、画像を登録し、3Dポイントを三角測量し、バンドル調整を行う。
最近の研究は、ディープラーニングの力を利用して特定の要素(例えばキーポイントマッチング)を強化することに重点を置いているが、それでも元の非微分可能なパイプラインに基づいている。
代わりに、我々は新しいディープパイプラインVGGSfMを提案し、各コンポーネントは完全に微分可能であり、エンドツーエンドでトレーニングすることができる。
この目的のために、新しいメカニズムと単純化を導入します。
まず,近年の深度2次元点追跡技術を利用して,画素精度の高いトラックを抽出し,ペアマッチングのチェーン化の必要性を解消する。
さらに,カメラを段階的に登録する代わりに,画像と追跡機能に基づいて全カメラを同時に回収する。
最後に、カメラを最適化し、異なるバンドル調整層を介して3Dポイントを三角測量する。
co3d, imc phototourism, eth3dの3つの人気データセットで最先端のパフォーマンスを実現する。
関連論文リスト
- DynOMo: Online Point Tracking by Dynamic Online Monocular Gaussian Reconstruction [65.46359561104867]
モノクラーカメラ入力からのオンライン2Dおよび3Dポイントトラッキングの課題を対象としている。
我々は3Dガウススプラッティングを利用して動的シーンをオンラインに再構築する。
我々は,オンラインのポイントトラッキングとリコンストラクションを推進し,様々な現実のシナリオに適用可能にすることを目的としている。
論文 参考訳(メタデータ) (2024-09-03T17:58:03Z) - Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。
我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。
MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文 参考訳(メタデータ) (2024-04-10T03:11:10Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。