論文の概要: GraphGeo: Multi-Agent Debate Framework for Visual Geo-localization with Heterogeneous Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2511.00908v1
- Date: Sun, 02 Nov 2025 11:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.989878
- Title: GraphGeo: Multi-Agent Debate Framework for Visual Geo-localization with Heterogeneous Graph Neural Networks
- Title(参考訳): GraphGeo: 異種グラフニューラルネットワークを用いたビジュアルジオローカライゼーションのためのマルチエージェント議論フレームワーク
- Authors: Heng Zheng, Yuling Shi, Xiaodong Gu, Haochen You, Zijian Zhang, Lubin Gan, Hao Zhang, Wenjun Huang, Jin Huang,
- Abstract要約: GPSメタデータを使わずに画像の位置を決定するには、地理的知識と高度な推論が必要である。
近年のLVLM(Large Vision-Language Models)は、画像の内容から直接位置推論を可能にするが、個々のモデルは多様な地理的領域や複雑なシーンと競合する。
ヘテロジニアスグラフニューラルネットワークを用いた視覚的ジオローカライゼーションのためのマルチエージェントディベートフレームワークである textbfGraphGeo を提案する。
- 参考スコア(独自算出の注目度): 15.659980269049798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual geo-localization requires extensive geographic knowledge and sophisticated reasoning to determine image locations without GPS metadata. Traditional retrieval methods are constrained by database coverage and quality. Recent Large Vision-Language Models (LVLMs) enable direct location reasoning from image content, yet individual models struggle with diverse geographic regions and complex scenes. Existing multi-agent systems improve performance through model collaboration but treat all agent interactions uniformly. They lack mechanisms to handle conflicting predictions effectively. We propose \textbf{GraphGeo}, a multi-agent debate framework using heterogeneous graph neural networks for visual geo-localization. Our approach models diverse debate relationships through typed edges, distinguishing supportive collaboration, competitive argumentation, and knowledge transfer. We introduce a dual-level debate mechanism combining node-level refinement and edge-level argumentation modeling. A cross-level topology refinement strategy enables co-evolution between graph structure and agent representations. Experiments on multiple benchmarks demonstrate GraphGeo significantly outperforms state-of-the-art methods. Our framework transforms cognitive conflicts between agents into enhanced geo-localization accuracy through structured debate.
- Abstract(参考訳): GPSメタデータを使わずに画像の位置を決定するには、地理的知識と高度な推論が必要である。
従来の検索方法はデータベースのカバレッジと品質に制約されている。
近年のLVLM(Large Vision-Language Models)は、画像の内容から直接位置推論を可能にするが、個々のモデルは多様な地理的領域や複雑なシーンと競合する。
既存のマルチエージェントシステムは、モデルコラボレーションによってパフォーマンスを改善するが、すべてのエージェントインタラクションを均一に扱う。
矛盾する予測を効果的に処理するメカニズムが欠けている。
異種グラフニューラルネットワークを用いた視覚的ジオローカライズのためのマルチエージェントディベートフレームワークである \textbf{GraphGeo} を提案する。
我々のアプローチは、多種多様な議論関係をタイプされたエッジを通じてモデル化し、支援的コラボレーション、競争的議論、知識伝達を区別する。
本稿では,ノードレベルの洗練とエッジレベルの議論モデルを組み合わせた二段階の議論機構を提案する。
クロスレベルトポロジー改善戦略は、グラフ構造とエージェント表現の共進化を可能にする。
複数のベンチマークの実験では、GraphGeoが最先端のメソッドを大幅に上回っている。
この枠組みは,エージェント間の認知的対立を,構造化された議論を通じて地理的局所化精度の向上に変換する。
関連論文リスト
- GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings [3.43519422766841]
我々は、クエリ画像の視覚的表現と学習された地理的表現との整合性として、地理的ローカライゼーションを定式化する。
主要な実験では、5つのベンチマークデータセットで測定された25のメトリクスのうち22のベストが改善された。
論文 参考訳(メタデータ) (2025-10-01T20:39:48Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。