論文の概要: MVL-Loc: Leveraging Vision-Language Model for Generalizable Multi-Scene Camera Relocalization
- arxiv url: http://arxiv.org/abs/2507.04509v1
- Date: Sun, 06 Jul 2025 18:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.2182
- Title: MVL-Loc: Leveraging Vision-Language Model for Generalizable Multi-Scene Camera Relocalization
- Title(参考訳): MVL-Loc:一般化可能なマルチシーンカメラ再ローカライゼーションのためのビジョンランゲージモデル
- Authors: Zhendong Xiao, Wu Wei, Shujie Ji, Shan Yang, Changhao Chen,
- Abstract要約: 本稿では,新しいエンド・ツー・エンドのマルチシーンカメラ・リローカライズ・フレームワークであるMVL-Locを提案する。
自然言語は多場面学習プロセスを導くための指示ツールとして使用される。
7ScenesとCambridge Landmarksのデータセットの実験では、MVL-Locの堅牢性と最先端のパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 11.075399895096162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera relocalization, a cornerstone capability of modern computer vision, accurately determines a camera's position and orientation (6-DoF) from images and is essential for applications in augmented reality (AR), mixed reality (MR), autonomous driving, delivery drones, and robotic navigation. Unlike traditional deep learning-based methods that regress camera pose from images in a single scene, which often lack generalization and robustness in diverse environments, we propose MVL-Loc, a novel end-to-end multi-scene 6-DoF camera relocalization framework. MVL-Loc leverages pretrained world knowledge from vision-language models (VLMs) and incorporates multimodal data to generalize across both indoor and outdoor settings. Furthermore, natural language is employed as a directive tool to guide the multi-scene learning process, facilitating semantic understanding of complex scenes and capturing spatial relationships among objects. Extensive experiments on the 7Scenes and Cambridge Landmarks datasets demonstrate MVL-Loc's robustness and state-of-the-art performance in real-world multi-scene camera relocalization, with improved accuracy in both positional and orientational estimates.
- Abstract(参考訳): 現代のコンピュータビジョンの基礎となる機能であるカメラ再ローカライゼーションは、画像からカメラの位置と方向(6-DoF)を正確に決定し、拡張現実(AR)、混合現実(MR)、自律運転、配達ドローン、ロボットナビゲーションの応用に必須である。
様々な環境における一般化やロバスト性に欠ける単一シーンの画像からカメラのポーズを退避させる従来のディープラーニング方式とは異なり、新しいエンドツーエンドのマルチシーン6-DoFカメラ再ローカライズフレームワークであるMVL-Locを提案する。
MVL-Locは、視覚言語モデル(VLM)から事前訓練された世界の知識を活用し、マルチモーダルデータを取り入れて、屋内と屋外の両方で一般化する。
さらに,多場面学習プロセスの指導,複雑な場面の意味的理解の促進,オブジェクト間の空間的関係の獲得などを目的としたディレクティブツールとして自然言語が用いられている。
7ScenesとCambridge Landmarksのデータセットに対する大規模な実験は、MVL-Locの堅牢性と、実世界のマルチシーンカメラ再ローカライゼーションにおける最先端のパフォーマンスを示し、位置推定と向き推定の両方で精度が向上した。
関連論文リスト
- OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Visual Perception Generalization for Vision-and-Language Navigation via
Meta-Learning [9.519596058757033]
VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。
本研究では、メタラーニングに基づく視覚認識一般化戦略を提案する。これにより、エージェントは数回のショットで新しいカメラ構成に迅速に適応することができる。
論文 参考訳(メタデータ) (2020-12-10T04:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。