論文の概要: Skill-Conditioned Visual Geolocation for Vision-Language
- arxiv url: http://arxiv.org/abs/2604.09025v1
- Date: Fri, 10 Apr 2026 06:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.727316
- Title: Skill-Conditioned Visual Geolocation for Vision-Language
- Title(参考訳): ビジョンランゲージのためのスキルコンディション型ビジュアルジオロケーション
- Authors: Chenjie Yang, Yutian Jiang, Chenyu Wu,
- Abstract要約: 視覚言語モデル(VLM)は画像位置情報において有望な能力を示している。
構造的な地理的推論と自律的な自己進化能力は依然として欠如している。
進化するSkill-Graphに基づくトレーニングフリーフレームワークであるGeoSkillを提案する。
- 参考スコア(独自算出の注目度): 3.5664638000076585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have shown a promising ability in image geolocation, but they still lack structured geographic reasoning and the capacity for autonomous self-evolution. Existing methods predominantly rely on implicit parametric memory, which often exploits outdated knowledge and generates hallucinated reasoning. Furthermore, current inference is a "one-off" process, lacking the feedback loops necessary for self-evolution based on reasoning outcomes. To address these issues, we propose GeoSkill, a training-free framework based on an evolving Skill-Graph. We first initialize the graph by refining human expert trajectories into atomic, natural-language skills. For execution, GeoSkill employs an inference model to perform direct reasoning guided by the current Skill-Graph. For continuous growth, an Autonomous Evolution mechanism leverages a larger model to conduct multiple reasoning rollouts on image-coordinate pairs sourced from web-scale data and verified real-world reasoning. By analyzing both successful and failed trajectories from these rollouts, the mechanism iteratively synthesizes and prunes skills, effectively expanding the Skill-Graph and correcting geographic biases without any parameter updates. Experiments demonstrate that GeoSkill achieves promising performance in both geolocation accuracy and reasoning faithfulness on GeoRC, while maintaining superior generalization across diverse external datasets. Furthermore, our autonomous evolution fosters the emergence of novel, verifiable skills, significantly enhancing the system's cognition of real-world geographic knowledge beyond isolated case studies.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像位置情報において有望な能力を示しているが、構造的地理的推論と自律的自己進化能力はいまだに欠如している。
既存の手法は主に暗黙のパラメトリックメモリに依存しており、古い知識をしばしば活用し、幻覚的推論を生成する。
さらに、現在の推論は"ワンオフ"プロセスであり、推論結果に基づいた自己進化に必要なフィードバックループが欠如している。
これらの問題に対処するために,進化するSkill-Graphに基づくトレーニングフリーフレームワークであるGeoSkillを提案する。
まず、人的専門家の軌跡を原子・自然言語のスキルに書き換えて、そのグラフを初期化する。
実行のために、GeoSkillは推論モデルを使用して、現在のSkill-Graphでガイドされた直接推論を実行する。
継続的成長のために、自律進化のメカニズムは、より大きなモデルを活用して、Webスケールのデータと検証された実世界の推論から得られた画像調整ペアに対して、複数の推論ロールアウトを実行する。
これらのロールアウトから成功した軌道と失敗した軌道の両方を分析することで、このメカニズムは反復的にスキルを合成し、熟考し、スキルグラフを効果的に拡張し、パラメータを更新せずに地理的バイアスを修正する。
実験により、GeoSkillはGeoRC上での位置情報の精度と信頼度の両方において有望な性能を達成し、多様な外部データセットをまたいだ優れた一般化を維持していることが示された。
さらに、我々の自律進化は、新規で検証可能なスキルの出現を促進させ、孤立したケーススタディを超えて現実世界の地理的知識の認識を著しく向上させます。
関連論文リスト
- OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach [41.001581773172695]
提案するGeo-Rは,既存の接地トラス座標から構造的推論経路を明らかにする,検索不要なフレームワークである。
本稿では,ルールに基づく階層的推論パラダイムである領域の連鎖を提案する。
提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
論文 参考訳(メタデータ) (2026-01-01T16:51:41Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [20.788130896943663]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。