論文の概要: GAEA: A Geolocation Aware Conversational Assistant
- arxiv url: http://arxiv.org/abs/2503.16423v3
- Date: Wed, 03 Sep 2025 02:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:02.949306
- Title: GAEA: A Geolocation Aware Conversational Assistant
- Title(参考訳): GAEA:ジオロケーション対応会話アシスタント
- Authors: Ron Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aizan Zafar, Aritra Dutta, Mubarak Shah,
- Abstract要約: 本稿では,ユーザが必要とする画像の位置に関する情報を提供する対話モデルGAEAを紹介する。
そのようなモデルのトレーニングを可能にする大規模なデータセットは存在しない。
GAEAは、最高のオープンソースモデルであるLLaVA-OneVisionを18.2%、最高のプロプライエタリモデルであるGPT-4oを7.2%上回っている。
- 参考スコア(独自算出の注目度): 41.22664662328064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image geolocalization, in which an AI model traditionally predicts the precise GPS coordinates of an image, is a challenging task with many downstream applications. However, the user cannot utilize the model to further their knowledge beyond the GPS coordinates; the model lacks an understanding of the location and the conversational ability to communicate with the user. In recent days, with the tremendous progress of large multimodal models (LMMs) -- proprietary and open-source -- researchers have attempted to geolocalize images via LMMs. However, the issues remain unaddressed; beyond general tasks, for more specialized downstream tasks, such as geolocalization, LMMs struggle. In this work, we propose solving this problem by introducing a conversational model, GAEA, that provides information regarding the location of an image as the user requires. No large-scale dataset enabling the training of such a model exists. Thus, we propose GAEA-1.4M, a comprehensive dataset comprising over 800k images and approximately 1.4M question-answer pairs, constructed by leveraging OpenStreetMap (OSM) attributes and geographical context clues. For quantitative evaluation, we propose a diverse benchmark, GAEA-Bench, comprising 3.5k image-text pairs to evaluate conversational capabilities equipped with diverse question types. We consider 11 state-of-the-art open-source and proprietary LMMs and demonstrate that GAEA significantly outperforms the best open-source model, LLaVA-OneVision, by 18.2% and the best proprietary model, GPT-4o, by 7.2%. Our dataset, model and codes are available.
- Abstract(参考訳): 画像の正確なGPS座標をAIモデルが伝統的に予測する画像ジオローカライゼーションは、多くの下流アプリケーションにおいて難しい課題である。
しかし,GPS座標を超越した知識を活用できないため,ユーザとの会話能力や位置情報の理解が不十分である。
近年では、大規模なマルチモーダルモデル(LMM)が急速に進歩し、プロプライエタリでオープンソースの研究者たちが、LMMによる画像のジオローカライズを試みている。
しかし、問題は未解決のままであり、一般的なタスクを超えて、地理的ローカライゼーションのようなより専門的な下流タスクでは、LMMは苦労する。
本研究では,ユーザが必要とする画像の位置に関する情報を提供する対話モデルGAEAを導入することで,この問題を解決することを提案する。
そのようなモデルのトレーニングを可能にする大規模なデータセットは存在しない。
そこで我々は,OpenStreetMap (OSM) 属性と地理的文脈の手がかりを利用して,800k以上の画像と約1.4Mの質問応答ペアからなる包括的データセット GAEA-1.4M を提案する。
定量的評価のために,多様な質問型を備えた対話機能を評価するために,3.5kの画像テキストペアからなる多様なベンチマークGAEA-Benchを提案する。
我々は11の最先端のオープンソースおよびプロプライエタリなLMMを検討し、GAEAが最高のオープンソースモデルであるLLaVA-OneVisionを18.2%上回り、最高のプロプライエタリモデルであるGPT-4oを7.2%上回っていることを示した。
データセット、モデル、コードは利用可能です。
関連論文リスト
- LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery [45.87124064438554]
複雑なリモートセンシングシーンを記述した視覚言語モデルであるLISAtを紹介する。
我々は、9,205枚の画像に27,615個のアノテーションを付加した新しいジオ空間推論・セグメンテーションデータセット、GRESでLISAtをトレーニングした。
LISAtは、セグメンテーションタスクを143.36%(gIoU)の精度で、最先端のオープンドメインモデルより優れている
論文 参考訳(メタデータ) (2025-05-05T17:56:25Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization [11.037269841281727]
我々は,大域的および微粒な画像情報を統合した包括的画像ジオローカライズフレームワークであるNavigを紹介する。
言語による推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減する。
論文 参考訳(メタデータ) (2025-02-20T15:21:35Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation [9.161203553842787]
画像位置情報をテキスト生成タスクとして再定義する新しいシステムであるImg2Locを提案する。
Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。
そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。
Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。
論文 参考訳(メタデータ) (2024-03-28T17:07:02Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。