Fugu-MT 論文翻訳(概要): VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

論文の概要: VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

arxiv url: http://arxiv.org/abs/2602.19735v1
Date: Mon, 23 Feb 2026 11:33:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.789138
Title: VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments
Title（参考訳）: VGGT-MPR:自律走行環境におけるVGGTによるマルチモーダル位置認識
Authors: Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan, Xuyu Gao, Qianyun Jiao, Songpengcheng Xia, Xieyuanli Chen, Ling Pei,
Abstract要約: VGGT-MPRは、グローバル検索と再ランク付けの両方のための統合幾何エンジンである。 VGGTは、事前の深度認識と点マップ監視を通して、幾何学的に豊富な視覚的埋め込みを抽出する。提案手法は,パラメータの最適化を伴わずに検索結果を効果的に洗練する。
参考スコア（独自算出の注目度）: 28.038793732845477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In autonomous driving, robust place recognition is critical for global localization and loop closure detection. While inter-modality fusion of camera and LiDAR data in multimodal place recognition (MPR) has shown promise in overcoming the limitations of unimodal counterparts, existing MPR methods basically attend to hand-crafted fusion strategies and heavily parameterized backbones that require costly retraining. To address this, we propose VGGT-MPR, a multimodal place recognition framework that adopts the Visual Geometry Grounded Transformer (VGGT) as a unified geometric engine for both global retrieval and re-ranking. In the global retrieval stage, VGGT extracts geometrically-rich visual embeddings through prior depth-aware and point map supervision, and densifies sparse LiDAR point clouds with predicted depth maps to improve structural representation. This enhances the discriminative ability of fused multimodal features and produces global descriptors for fast retrieval. Beyond global retrieval, we design a training-free re-ranking mechanism that exploits VGGT's cross-view keypoint-tracking capability. By combining mask-guided keypoint extraction with confidence-aware correspondence scoring, our proposed re-ranking mechanism effectively refines retrieval results without additional parameter optimization. Extensive experiments on large-scale autonomous driving benchmarks and our self-collected data demonstrate that VGGT-MPR achieves state-of-the-art performance, exhibiting strong robustness to severe environmental changes, viewpoint shifts, and occlusions. Our code and data will be made publicly available.
Abstract（参考訳）: 自律運転では、ロバストな位置認識がグローバルな位置決めとループ閉鎖検出に不可欠である。マルチモーダル位置認識(MPR)におけるカメラとLiDARデータのモダリティ間融合は、一方、既存のMPR手法は基本的に手作りの融合戦略や、高価な再トレーニングを必要とする重パラメータ化されたバックボーンに寄与する。そこで我々は,VGGT-MPR (Visual Geometry Grounded Transformer, VGGT) をグローバル検索と再ランク付けのための統一幾何エンジンとして採用したマルチモーダル位置認識フレームワークを提案する。グローバル検索の段階では、VGGTは、事前の深度認識と点マップの監督を通して幾何学的にリッチな視覚埋め込みを抽出し、予測深度マップで疎LiDAR点雲を密度化し、構造表現を改善する。これにより、融合したマルチモーダル特徴の識別能力を高め、高速検索のためのグローバルな記述子を生成する。グローバル検索以外にも、VGGTのクロスビューキーポイント追跡機能を活用する、トレーニング不要なリグレード機構を設計する。マスク誘導キーポイント抽出と信頼認識対応スコアリングを組み合わせることで,パラメータ最適化を伴わずに検索結果を効果的に洗練する機構を提案する。 VGGT-MPRは、大規模自動運転ベンチマークと自己収集データによる大規模な実験により、最先端の性能を実現し、厳しい環境変化、視点シフト、閉塞に対して強い堅牢性を示すことを示した。私たちのコードとデータは公開されます。

関連論文リスト

Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文参考訳（メタデータ） (2025-12-05T08:12:35Z)
Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文参考訳（メタデータ） (2025-11-21T07:25:49Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
Green Learning for STAR-RIS mmWave Systems with Implicit CSI [53.03358325565645]
再構成可能なインテリジェントサーフェス (STAR-RIS) 支援ミリ波放送システム (mmWave) を同時に送信し, 反射するグリーンラーニング (GL) ベースのプリコーディングフレームワークを提案する。本研究は,将来の6Gネットワークにおける環境持続可能性を重視し,複数のユーザが同一情報を共有し,スペクトル効率を向上し,冗長伝送と電力消費を低減させるシナリオに,トランスミッションフレームワークを採用する。
論文参考訳（メタデータ） (2025-09-08T15:56:06Z)
GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-08-08T08:17:18Z)
Universal Retrieval for Multimodal Trajectory Modeling [12.160448446091607]
軌道データは、AIエージェント能力を向上する大きな可能性を秘めている。本稿では,ユニバーサル検索とエージェント中心軌道モデリングのギャップを埋めるマルチモーダル軌道検索手法を提案する。
論文参考訳（メタデータ） (2025-06-27T09:50:38Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文参考訳（メタデータ） (2025-05-02T12:21:44Z)
GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
我々はGPSRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ネットワークを提案する。マルチビューRGB画像とLiDAR点雲を時間的に統一されたシーン表現とMultimodal Gaussian Splattingを明示的に組み合わせている。提案手法は,多視点カメラとLiDARの相補的強度を有効活用し,ソタ位置認識性能を向上し,ソタ位置認識性能を向上する。
論文参考訳（メタデータ） (2024-10-01T00:43:45Z)
Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文参考訳（メタデータ） (2023-12-13T23:06:30Z)
ClusVPR: Efficient Visual Place Recognition with Clustering-based Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。 ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入したまた,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文参考訳（メタデータ） (2023-10-06T09:01:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。