論文の概要: GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View
- arxiv url: http://arxiv.org/abs/2506.16633v1
- Date: Thu, 19 Jun 2025 22:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.276765
- Title: GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View
- Title(参考訳): GeoGuess:ストリートビューにおける視覚情報の階層に基づくマルチモーダル推論
- Authors: Fenghua Cheng, Jinxiang Wang, Sen Wang, Zi Huang, Xue Li,
- Abstract要約: マルチモーダル推論,すなわちGeoGuessの新規かつ挑戦的なタスクについて紹介する。
ストリートビューの画像が与えられた場合、その場所を特定し、詳細な説明を行うことが課題である。
特別にキュレートされたGeoExplainデータセットを導入することでGeoGuessのベンチマークを確立する。
また,マルチモーダル・マルチレベル推論手法,すなわちSightSenseを提案する。
- 参考スコア(独自算出の注目度): 28.96360527725272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning is a process of understanding, integrating and inferring information across different data modalities. It has recently attracted surging academic attention as a benchmark for Artificial Intelligence (AI). Although there are various tasks for evaluating multimodal reasoning ability, they still have limitations. Lack of reasoning on hierarchical visual clues at different levels of granularity, e.g., local details and global context, is of little discussion, despite its frequent involvement in real scenarios. To bridge the gap, we introduce a novel and challenging task for multimodal reasoning, namely GeoGuess. Given a street view image, the task is to identify its location and provide a detailed explanation. A system that succeeds in GeoGuess should be able to detect tiny visual clues, perceive the broader landscape, and associate with vast geographic knowledge. Therefore, GeoGuess would require the ability to reason between hierarchical visual information and geographic knowledge. In this work, we establish a benchmark for GeoGuess by introducing a specially curated dataset GeoExplain which consists of panoramas-geocoordinates-explanation tuples. Additionally, we present a multimodal and multilevel reasoning method, namely SightSense which can make prediction and generate comprehensive explanation based on hierarchy of visual information and external knowledge. Our analysis and experiments demonstrate their outstanding performance in GeoGuess.
- Abstract(参考訳): マルチモーダル推論(Multimodal reasoning)とは、異なるデータモダリティ間の情報を理解し、統合し、推論するプロセスである。
最近、AI(Artificial Intelligence)のベンチマークとして、学術的な注目を集めている。
マルチモーダル推論能力の評価には様々なタスクがあるが、それらには制限がある。
さまざまな粒度の階層的な視覚的手がかり(例えば、局所的な詳細とグローバルな文脈)に対する推論の欠如は、実際のシナリオへの頻繁な関与にもかかわらず、ほとんど議論されていない。
ギャップを埋めるために,GeoGuessという,マルチモーダル推論の新しい課題を導入する。
ストリートビューの画像が与えられた場合、その場所を特定し、詳細な説明を行うことが課題である。
GeoGuessで成功したシステムは、小さな視覚的手がかりを検出し、広い風景を認識し、広大な地理的知識と関連付けることができる。
そのため、GeoGuessは階層的な視覚情報と地理的知識を推論する能力を必要とする。
本研究では,Panoramas-Geocoordinates-ExplanationタプルからなるGeoExplainを特別にキュレートしたデータセットを導入することにより,GeoGuessのベンチマークを確立する。
さらに、視覚情報や外部知識の階層構造に基づいて、予測を行い、包括的な説明を生成するマルチモーダル・マルチレベル推論手法であるSightSenseを提案する。
解析と実験によりGeoGuessにおける優れた性能を実証した。
関連論文リスト
- GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [11.704082783192467]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。