論文の概要: AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.10667v1
- Date: Thu, 14 Aug 2025 14:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.347307
- Title: AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models
- Title(参考訳): AddressVLM:大規模視覚言語モデルを用いた画像位置定位のためのクロスビューアライメントチューニング
- Authors: Shixiong Xu, Chenghao Zhang, Lubin Fan, Yuan Zhou, Bin Fan, Shiming Xiang, Gaofeng Meng, Jieping Ye,
- Abstract要約: 大規模視覚言語モデル (LVLM) は, 国土や都市部における粗粒度の地理的局在化において, 顕著な性能を示した。
都市部における街路レベルの微粒化に苦慮している。
本稿では,街路ビュー画像を用いたフレキシブルなアドレス関連質問応答を容易にするため,都市全体のアドレスローカライズ機能をLVLMに統合することを検討する。
- 参考スコア(独自算出の注目度): 61.350774745321566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large visual language models (LVLMs) have demonstrated impressive performance in coarse-grained geo-localization at the country or city level, but they struggle with fine-grained street-level localization within urban areas. In this paper, we explore integrating city-wide address localization capabilities into LVLMs, facilitating flexible address-related question answering using street-view images. A key challenge is that the street-view visual question-and-answer (VQA) data provides only microscopic visual cues, leading to subpar performance in fine-tuned models. To tackle this issue, we incorporate perspective-invariant satellite images as macro cues and propose cross-view alignment tuning including a satellite-view and street-view image grafting mechanism, along with an automatic label generation mechanism. Then LVLM's global understanding of street distribution is enhanced through cross-view matching. Our proposed model, named AddressVLM, consists of two-stage training protocols: cross-view alignment tuning and address localization tuning. Furthermore, we have constructed two street-view VQA datasets based on image address localization datasets from Pittsburgh and San Francisco. Qualitative and quantitative evaluations demonstrate that AddressVLM outperforms counterpart LVLMs by over 9% and 12% in average address localization accuracy on these two datasets, respectively.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は, 都市部や都市部における粗粒度の地理的局所化において顕著な性能を示してきたが, 都市部における街路レベルの微粒化に苦慮している。
本稿では,街路ビュー画像を用いたフレキシブルなアドレス関連質問応答を容易にするため,都市全体のアドレスローカライズ機能をLVLMに統合することを検討する。
重要な課題は、ストリートビューの視覚的質問・回答(VQA)データが顕微鏡的な視覚的手がかりのみを提供し、微調整されたモデルではサブパーのパフォーマンスをもたらすことである。
この問題に対処するために、視点不変の衛星画像をマクロキューとして組み込み、自動ラベル生成機構とともに、衛星ビューとストリートビュー画像移植機構を含むクロスビューアライメントチューニングを提案する。
そして、LVLMの街路分布のグローバルな理解は、クロスビューマッチングによって強化される。
提案するAddressVLMは,クロスビューアライメントチューニングとアドレスローカライゼーションチューニングという2段階のトレーニングプロトコルで構成されている。
さらに、ピッツバーグとサンフランシスコのイメージアドレスローカライゼーションデータセットに基づいて、2つのストリートビューVQAデータセットを構築した。
定性的および定量的評価により、これらの2つのデータセットの平均アドレスローカライゼーション精度は、それぞれ9%以上と12%以上向上している。
関連論文リスト
- CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。
2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文 参考訳(メタデータ) (2025-06-06T17:59:06Z) - Visual Position Prompt for MLLM based Visual Grounding [29.34950670755899]
本稿では,視覚位置プロンプトで強化されたMLLMであるVPP-LLaVAを導入し,グラウンド機能を改善する。
我々はまた、0.6Mの高品質な視覚的接地サンプルのキュレートされたデータセットであるVPP-SFTも導入した。
得られたモデルは、標準的なビジュアルグラウンドベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-19T17:08:13Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [11.085165252259042]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。
意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model [6.135404769437841]
本研究は,大規模視覚言語モデル(LVLM)を用いた新しいパラダイムによる地理的局在化の課題に取り組む。
既存のストリートビューデータセットには、視覚的な手がかりがなく、推論に理由がない多くの低品質画像が含まれていることが多い。
データ品質の問題に対処するため、我々はCLIPベースのネットワークを考案し、街路ビュー画像がどこにあるかを定量化する。
推論の精度を高めるために,実地局所化ゲームから得られた外部知識を統合し,価値ある人間の推論能力を活用する。
論文 参考訳(メタデータ) (2024-06-03T18:08:56Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。