論文の概要: Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions
- arxiv url: http://arxiv.org/abs/2502.18470v5
- Date: Wed, 11 Jun 2025 04:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:47.986814
- Title: Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions
- Title(参考訳): 空間RAG:実世界地理空間推論のための空間検索生成
- Authors: Dazhou Yu, Riyang Bao, Ruiyu Ning, Jinghong Peng, Gengchen Mai, Liang Zhao,
- Abstract要約: 空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。
構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。
応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
- 参考スコア(独自算出の注目度): 5.053463027769152
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Answering real-world geospatial questions--such as finding restaurants along a travel route or amenities near a landmark--requires reasoning over both geographic relationships and semantic user intent. However, existing large language models (LLMs) lack spatial computing capabilities and access to up-to-date, ubiquitous real-world geospatial data, while traditional geospatial systems fall short in interpreting natural language. To bridge this gap, we introduce Spatial-RAG, a Retrieval-Augmented Generation (RAG) framework designed for geospatial question answering. Spatial-RAG integrates structured spatial databases with LLMs via a hybrid spatial retriever that combines sparse spatial filtering and dense semantic matching. It formulates the answering process as a multi-objective optimization over spatial and semantic relevance, identifying Pareto-optimal candidates and dynamically selecting the best response based on user intent. Experiments across multiple tourism and map-based QA datasets show that Spatial-RAG significantly improves accuracy, precision, and ranking performance over strong baselines.
- Abstract(参考訳): ランドマーク近くの旅行ルートやアメニティ沿いのレストランを見つけるなど、地理的関係とセマンティックユーザ意図の両方を推論する現実的な地理空間的疑問に答える。
しかし、既存の大規模言語モデル (LLM) には空間計算能力がなく、最新のユビキタスな実世界の地理空間データにアクセスできない一方、従来の地理空間システムは自然言語の解釈に不足している。
このギャップを埋めるために,地理空間質問応答用に設計された空間RAG(Retrieval-Augmented Generation)フレームワークを導入する。
空間RAGは、スパース空間フィルタリングと密接なセマンティックマッチングを組み合わせたハイブリッド空間検索器を介して、構造化空間データベースとLLMを統合する。
応答過程を空間的および意味的関連性に対する多目的最適化として定式化し、パレート最適候補を特定し、ユーザの意図に基づいて最適な応答を動的に選択する。
複数の観光および地図に基づくQAデータセットを対象とした実験により、空間RAGは強いベースラインよりも精度、精度、ランク付け性能を著しく向上することが示された。
関連論文リスト
- OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Deep spatial context: when attention-based models meet spatial
regression [8.90978723839271]
深部空間コンテキスト(DSCon)法は,空間コンテキストの概念を用いた注意に基づく視覚モデルの研究に役立つ。
病理学者にヒントを得たものであるが、様々な領域に応用できる。
論文 参考訳(メタデータ) (2024-01-18T15:08:42Z) - A systematic review of geospatial location embedding approaches in large
language models: A path to spatial AI systems [0.0]
地理空間的位置埋め込み(GLE)は、大規模言語モデル(LLM)が空間データを同化して解析するのに役立つ。
GLEは、空間的知識をモデルアーキテクチャに組み込む空間的基礎/言語モデル(SLM)の必要性を示唆している。
論文 参考訳(メタデータ) (2024-01-12T12:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。