論文の概要: UniPR-3D: Towards Universal Visual Place Recognition with Visual Geometry Grounded Transformer
- arxiv url: http://arxiv.org/abs/2512.21078v1
- Date: Wed, 24 Dec 2025 09:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.75104
- Title: UniPR-3D: Towards Universal Visual Place Recognition with Visual Geometry Grounded Transformer
- Title(参考訳): UniPR-3D:ビジュアル幾何接地変圧器を用いたユニバーサル視覚位置認識に向けて
- Authors: Tianchen Deng, Xun Chen, Ziming Li, Hongming Shen, Danwei Wang, Javier Civera, Hesheng Wang,
- Abstract要約: マルチビューからの情報を効果的に統合する初のVPRアーキテクチャであるUniPR-3Dを紹介する。
UniPR-3DはVGGTのバックボーン上に構築され、マルチビューの3D表現をエンコードできる。
実験により、UniPR-3Dは、単一のビューベースラインと複数ビューベースラインの両方を上回り、新しい最先端の技術を設定できることが判明した。
- 参考スコア(独自算出の注目度): 41.50383517550109
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Place Recognition (VPR) has been traditionally formulated as a single-image retrieval task. Using multiple views offers clear advantages, yet this setting remains relatively underexplored and existing methods often struggle to generalize across diverse environments. In this work we introduce UniPR-3D, the first VPR architecture that effectively integrates information from multiple views. UniPR-3D builds on a VGGT backbone capable of encoding multi-view 3D representations, which we adapt by designing feature aggregators and fine-tune for the place recognition task. To construct our descriptor, we jointly leverage the 3D tokens and intermediate 2D tokens produced by VGGT. Based on their distinct characteristics, we design dedicated aggregation modules for 2D and 3D features, allowing our descriptor to capture fine-grained texture cues while also reasoning across viewpoints. To further enhance generalization, we incorporate both single- and multi-frame aggregation schemes, along with a variable-length sequence retrieval strategy. Our experiments show that UniPR-3D sets a new state of the art, outperforming both single- and multi-view baselines and highlighting the effectiveness of geometry-grounded tokens for VPR. Our code and models will be made publicly available on Github https://github.com/dtc111111/UniPR-3D.
- Abstract(参考訳): 視覚的位置認識(VPR)は、伝統的に単一画像検索タスクとして定式化されてきた。
複数のビューを使用することで明らかなメリットがあるが、この設定は比較的過小評価されているままであり、既存のメソッドは様々な環境をまたいだ一般化に苦慮することが多い。
本研究では,複数のビューからの情報を効果的に統合する初のVPRアーキテクチャであるUniPR-3Dを紹介する。
UniPR-3Dは,多視点3D表現を符号化可能なVGGTバックボーン上に構築され,特徴アグリゲータの設計と位置認識タスクの微調整により適応する。
記述子を構築するために,VGGTが生成した3Dトークンと中間2Dトークンを併用する。
それらの特徴に基づいて,2次元および3次元特徴のための専用のアグリゲーションモジュールを設計し,ディクリプタが微粒なテクスチャの手がかりを捉えながら,視点をまたいだ推論を可能にする。
一般化をさらに進めるために,単一フレームと多フレームのアグリゲーションスキームと可変長シーケンス検索戦略を併用する。
実験により、UniPR-3Dは、新しい最先端技術を設定し、シングルビューベースラインとマルチビューベースラインの両方を上回り、VPRのための幾何学的グラウンドトークンの有効性を強調した。
私たちのコードとモデルはGithub https://github.com/dtc1111/UniPR-3Dで公開されます。
関連論文リスト
- Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images [36.084665557986156]
スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
本稿では,オープンな語彙意味論に富んだ統一された3次元シーン表現を共同で再構築する,新しいフィードフォワードフレームワークであるUni3Rを紹介する。
論文 参考訳(メタデータ) (2025-08-05T16:54:55Z) - Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space [17.603217168518356]
本稿では,2次元画像を3次元空間に引き上げ,大規模かつ多様な単一視点画像のフル活用を目的とした,新しい2段階のフレームワークを提案する。
第1段階では,多視点画像合成と3次元特徴ガウス表現を組み合わせた3次元特徴エンコーダを学習する。
第2段階では、単一視点画像からの大規模な合成データ生成と組み合わせて、特徴デコーダの学習を行う。
論文 参考訳(メタデータ) (2025-07-01T03:07:21Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。