論文の概要: "Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries
- arxiv url: http://arxiv.org/abs/2508.15752v1
- Date: Thu, 21 Aug 2025 17:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.43064
- Title: "Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries
- Title(参考訳): 「カフェの入り口はアクセス可能か?ドアはどこにあるのか?」
- Authors: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane,
- Abstract要約: 我々は、世界に関する微妙な視覚空間的問い合わせを理解し、応答できるマルチモーダルAIエージェントであるジオ・ビジュアル・エージェントのビジョンを紹介する。
我々は、ストリートスケープ(Googleストリートビューなど)、場所ベースの写真(TripAdvisor、Yelpなど)、空中画像(衛星写真など)など、地理空間画像の大規模リポジトリを従来のGISデータソースと組み合わせて分析する。
- 参考スコア(独自算出の注目度): 9.174612540185837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial images, including streetscapes (e.g., Google Street View), place-based photos (e.g., TripAdvisor, Yelp), and aerial imagery (e.g., satellite photos) combined with traditional GIS data sources. We define our vision, describe sensing and interaction approaches, provide three exemplars, and enumerate key challenges and opportunities for future work.
- Abstract(参考訳): しかし、それらはGISデータベース(例えば、道路ネットワーク、POIインデックス)に既存の構造化されたデータに依存しており、世界がどのようなものかに関する地理視覚的な問題に対処する能力を制限する。
我々は、地理空間画像の大規模なリポジトリ(例えば、Googleストリートビュー)、場所ベースの写真(例えば、TripAdvisor、Yelp)、航空画像(例えば、衛星写真)を従来のGISデータソースと組み合わせて分析することにより、世界に関する微妙な視覚空間的問い合わせを理解し、応答できるマルチモーダルAIエージェントのビジョンを紹介した。
我々は、ビジョンを定義し、センシングとインタラクションのアプローチを説明し、3つの模範を提供し、将来の仕事の重要な課題と機会を列挙する。
関連論文リスト
- GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View [28.96360527725272]
マルチモーダル推論,すなわちGeoGuessの新規かつ挑戦的なタスクについて紹介する。
ストリートビューの画像が与えられた場合、その場所を特定し、詳細な説明を行うことが課題である。
特別にキュレートされたGeoExplainデータセットを導入することでGeoGuessのベンチマークを確立する。
また,マルチモーダル・マルチレベル推論手法,すなわちSightSenseを提案する。
論文 参考訳(メタデータ) (2025-06-19T22:19:31Z) - Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior [16.334202302817783]
本研究は、地理的事前に組み込まれたストリートビュー画像に対する教師なしコントラストクラスタリングモデルを提案する。
本研究では,2つの都市の地理タグ付きストリートビュー画像データセットから土地利用地図を作成できることを実験的に示す。
論文 参考訳(メタデータ) (2025-04-24T13:41:27Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。