論文の概要: Unleashing the Power of Data Synthesis in Visual Localization
- arxiv url: http://arxiv.org/abs/2412.00138v1
- Date: Thu, 28 Nov 2024 16:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:18.205120
- Title: Unleashing the Power of Data Synthesis in Visual Localization
- Title(参考訳): 視覚的ローカライゼーションにおけるデータ合成のパワーの解放
- Authors: Sihang Li, Siqi Tan, Bowen Chang, Jing Zhang, Chen Feng, Yiming Li,
- Abstract要約: クェリ画像からカメラがポーズする手法は高速な推論のために注目されている。
我々は、ポーズ回帰の一般化を促進するために、データ合成の力を解き放つことを目的としている。
両腕共同訓練パイプラインを構築し, 対角分離器を用いて, 合成と現実のギャップを埋める。
- 参考スコア(独自算出の注目度): 17.159091187694884
- License:
- Abstract: Visual localization, which estimates a camera's pose within a known scene, is a long-standing challenge in vision and robotics. Recent end-to-end methods that directly regress camera poses from query images have gained attention for fast inference. However, existing methods often struggle to generalize to unseen views. In this work, we aim to unleash the power of data synthesis to promote the generalizability of pose regression. Specifically, we lift real 2D images into 3D Gaussian Splats with varying appearance and deblurring abilities, which are then used as a data engine to synthesize more posed images. To fully leverage the synthetic data, we build a two-branch joint training pipeline, with an adversarial discriminator to bridge the syn-to-real gap. Experiments on established benchmarks show that our method outperforms state-of-the-art end-to-end approaches, reducing translation and rotation errors by 50% and 21.6% on indoor datasets, and 35.56% and 38.7% on outdoor datasets. We also validate the effectiveness of our method in dynamic driving scenarios under varying weather conditions. Notably, as data synthesis scales up, our method exhibits a growing ability to interpolate and extrapolate training data for localizing unseen views. Project Page: https://ai4ce.github.io/RAP/
- Abstract(参考訳): カメラのポーズを既知のシーン内で推定する視覚的ローカライゼーションは、視覚とロボティクスにおける長年の課題である。
クェリ画像から直接カメラのポーズを復元する最近のエンドツーエンド手法は、高速な推論のために注目を集めている。
しかし、既存の手法は、しばしば目に見えない見解に一般化するのに苦労する。
本研究では、ポーズ回帰の一般化を促進するために、データ合成のパワーを解き放つことを目的とする。
具体的には、実際の2D画像を外観や色合いの異なる3Dガウススプラットに持ち上げ、データエンジンとして、より多くの画像の合成に使用します。
合成データを完全に活用するために, 対向判別器を用いて2分岐連成訓練パイプラインを構築し, 合成と実のギャップを埋める。
確立されたベンチマーク実験では、我々の手法は最先端のエンドツーエンドアプローチよりも優れており、屋内データセットでは変換と回転誤差が50%、屋内データセットでは21.6%、屋外データセットでは35.56%、38.7%減少している。
また,異なる気象条件下での動的運転シナリオにおける本手法の有効性を検証した。
特に,データ合成の規模が大きくなるにつれて,未知のビューをローカライズするためのトレーニングデータを補間・外挿する能力が高まっている。
Project Page: https://ai4ce.github.io/RAP/
関連論文リスト
- Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - Synfeal: A Data-Driven Simulator for End-to-End Camera Localization [0.9749560288448114]
実世界の現実的な3次元再構成に基づいて,大規模な局所化データセットを合成するフレームワークを提案する。
我々のフレームワークであるSynfealは、リアルな3Dテクスチャメッシュを介して仮想カメラを移動させることで、RGB画像を合成するオープンソースのデータ駆動シミュレータである。
結果は、Synfealが生成したデータセットに対するカメラローカライゼーションアルゴリズムのトレーニングが、最先端の手法によって生成されたデータセットと比較して、より良い結果をもたらすことを検証した。
論文 参考訳(メタデータ) (2023-05-29T17:29:02Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - DFNet: Enhance Absolute Pose Regression with Direct Feature Matching [16.96571417692014]
絶対ポーズ回帰(APR)と直接特徴マッチングを組み合わせたカメラ再局在パイプラインを導入する。
提案手法は,既存の1画像のAPR手法を最大56%上回る精度で3次元構造法に匹敵する精度を実現する。
論文 参考訳(メタデータ) (2022-04-01T16:39:16Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - LENS: Localization enhanced by NeRF synthesis [3.4386226615580107]
アルゴリズムのNeRFクラスによって描画された追加の合成データセットにより、カメラポーズの回帰が向上することを示す。
我々はさらに、トレーニング中のデータ拡張として、合成現実的および幾何学的一貫した画像を用いて、ポーズ回帰器の局所化精度を向上した。
論文 参考訳(メタデータ) (2021-10-13T08:15:08Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。