論文の概要: GAEA: A Geolocation Aware Conversational Model
- arxiv url: http://arxiv.org/abs/2503.16423v1
- Date: Thu, 20 Mar 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:17.456445
- Title: GAEA: A Geolocation Aware Conversational Model
- Title(参考訳): GAEA: 対話モデルによる位置情報認識
- Authors: Ron Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aritra Dutta, Mubarak Shah,
- Abstract要約: 本稿では,画像の位置に関する情報を提供する対話モデルGAEAを提案する。
そのようなモデルのトレーニングを可能にする大規模なデータセットは存在しない。
GAEAは、最高のオープンソースモデルであるLLaVA-OneVisionを25.69%、最高のプロプライエタリモデルであるGPT-4oを8.28%上回っている。
- 参考スコア(独自算出の注目度): 41.622284747213925
- License:
- Abstract: Image geolocalization, in which, traditionally, an AI model predicts the precise GPS coordinates of an image is a challenging task with many downstream applications. However, the user cannot utilize the model to further their knowledge other than the GPS coordinate; the model lacks an understanding of the location and the conversational ability to communicate with the user. In recent days, with tremendous progress of large multimodal models (LMMs) proprietary and open-source researchers have attempted to geolocalize images via LMMs. However, the issues remain unaddressed; beyond general tasks, for more specialized downstream tasks, one of which is geolocalization, LMMs struggle. In this work, we propose to solve this problem by introducing a conversational model GAEA that can provide information regarding the location of an image, as required by a user. No large-scale dataset enabling the training of such a model exists. Thus we propose a comprehensive dataset GAEA with 800K images and around 1.6M question answer pairs constructed by leveraging OpenStreetMap (OSM) attributes and geographical context clues. For quantitative evaluation, we propose a diverse benchmark comprising 4K image-text pairs to evaluate conversational capabilities equipped with diverse question types. We consider 11 state-of-the-art open-source and proprietary LMMs and demonstrate that GAEA significantly outperforms the best open-source model, LLaVA-OneVision by 25.69% and the best proprietary model, GPT-4o by 8.28%. Our dataset, model and codes are available
- Abstract(参考訳): 画像のジオローカライゼーションは、従来、画像の正確なGPS座標を予測するAIモデルが、多くの下流アプリケーションで難しい課題である。
しかし,GPS座標以外の知識を活用できないため,ユーザとの会話能力や位置情報の理解が不十分である。
近年,大規模マルチモーダルモデル(LMM)の進歩に伴い,LMMによる画像のジオローカライズが試みられている。
しかし、問題は未解決のままであり、一般的なタスクを超えて、より専門的な下流タスクでは、その1つは地理的局所化であり、LMMは苦戦している。
本研究では,ユーザの要求に応じて画像の位置に関する情報を提供する対話モデルGAEAを導入することで,この問題を解決することを提案する。
そのようなモデルのトレーニングを可能にする大規模なデータセットは存在しない。
そこで本研究では,OpenStreetMap(OSM)属性と地理的文脈手がかりを活用して構築した,800Kイメージと約1.6万の質問応答ペアを備えた総合データセットGAEAを提案する。
定量的評価のために、4K画像とテキストのペアからなる多様なベンチマークを提案し、多様な質問型を備えた会話能力を評価する。
我々は、最先端のオープンソースとプロプライエタリなLMMを11種類検討し、GAEAが最高のオープンソースモデルであるLLaVA-OneVisionを25.69%、プロプライエタリモデルであるGPT-4oを8.28%上回っていることを示す。
私たちのデータセット、モデル、コードは利用可能です
関連論文リスト
- NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization [11.037269841281727]
我々は,大域的および微粒な画像情報を統合した包括的画像ジオローカライズフレームワークであるNavigを紹介する。
言語による推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減する。
論文 参考訳(メタデータ) (2025-02-20T15:21:35Z) - Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation [9.161203553842787]
画像位置情報をテキスト生成タスクとして再定義する新しいシステムであるImg2Locを提案する。
Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。
そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。
Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。
論文 参考訳(メタデータ) (2024-03-28T17:07:02Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。