Fugu-MT 論文翻訳(概要): Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions

論文の概要: Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions

arxiv url: http://arxiv.org/abs/2502.18470v5
Date: Wed, 11 Jun 2025 04:41:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-12 16:13:47.986814
Title: Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions
Title（参考訳）: 空間RAG:実世界地理空間推論のための空間検索生成
Authors: Dazhou Yu, Riyang Bao, Ruiyu Ning, Jinghong Peng, Gengchen Mai, Liang Zhao,
Abstract要約: 空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
参考スコア（独自算出の注目度）: 5.053463027769152
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Answering real-world geospatial questions--such as finding restaurants along a travel route or amenities near a landmark--requires reasoning over both geographic relationships and semantic user intent. However, existing large language models (LLMs) lack spatial computing capabilities and access to up-to-date, ubiquitous real-world geospatial data, while traditional geospatial systems fall short in interpreting natural language. To bridge this gap, we introduce Spatial-RAG, a Retrieval-Augmented Generation (RAG) framework designed for geospatial question answering. Spatial-RAG integrates structured spatial databases with LLMs via a hybrid spatial retriever that combines sparse spatial filtering and dense semantic matching. It formulates the answering process as a multi-objective optimization over spatial and semantic relevance, identifying Pareto-optimal candidates and dynamically selecting the best response based on user intent. Experiments across multiple tourism and map-based QA datasets show that Spatial-RAG significantly improves accuracy, precision, and ranking performance over strong baselines.
Abstract（参考訳）: ランドマーク近くの旅行ルートやアメニティ沿いのレストランを見つけるなど、地理的関係とセマンティックユーザ意図の両方を推論する現実的な地理空間的疑問に答える。しかし、既存の大規模言語モデル (LLM) には空間計算能力がなく、最新のユビキタスな実世界の地理空間データにアクセスできない一方、従来の地理空間システムは自然言語の解釈に不足している。このギャップを埋めるために,地理空間質問応答用に設計された空間RAG(Retrieval-Augmented Generation)フレームワークを導入する。空間RAGは、スパース空間フィルタリングと密接なセマンティックマッチングを組み合わせたハイブリッド空間検索器を介して、構造化空間データベースとLLMを統合する。応答過程を空間的および意味的関連性に対する多目的最適化として定式化し、パレート最適候補を特定し、ユーザの意図に基づいて最適な応答を動的に選択する。複数の観光および地図に基づくQAデータセットを対象とした実験により、空間RAGは強いベースラインよりも精度、精度、ランク付け性能を著しく向上することが示された。

関連論文リスト

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文参考訳（メタデータ） (2026-02-13T04:48:05Z)
Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-02-05T18:59:32Z)
GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文参考訳（メタデータ） (2025-08-06T04:45:34Z)
GeoRAG: A Question-Answering Approach from a Geographical Perspective [3.243241445980849]
Geographic Question Answering (GeoQA) は、地理的領域における自然言語クエリに対処する。従来のQAシステムは、限定的な理解、低い検索精度、弱い相互作用性、複雑なタスクの不十分な処理に悩まされている。本研究は、ドメイン固有の微調整と迅速なエンジニアリングを統合した知識強化型QAフレームワークであるGeoRAGについて述べる。
論文参考訳（メタデータ） (2025-04-02T08:11:05Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Towards a Barrier-free GeoQA Portal: Natural Language Interaction with Geospatial Data Using Multi-Agent LLMs and Semantic Search [2.9658923973538034]
地理空間データとのシームレスな自然言語インタラクションのための多エージェント大規模言語モデルフレームワークを用いたGeoQAポータルを提案する。ケーススタディ、評価、およびユーザテストは、非専門家、GIS複雑性のブリッジング、パブリックアクセスに対する有効性を確認します。
論文参考訳（メタデータ） (2025-03-18T13:39:46Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
GeoJEPA: Towards Eliminating Augmentation- and Sampling Bias in Multimodal Geospatial Learning [0.0]
自己教師型統合埋め込み予測アーキテクチャ上に構築された地理空間データのための多目的多モード融合モデルであるGeoJEPAを提案する。我々は,自己教師付き地理空間表現学習において広く受け入れられている増分とサンプリングバイアスを排除することを目的としている。その結果,都市域のマルチモーダルな意味表現と,定量的かつ質的に評価するマップエンティティが得られた。
論文参考訳（メタデータ） (2025-02-25T22:03:28Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文参考訳（メタデータ） (2025-01-17T09:46:27Z)
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。しかし、それらの空間的推論能力は未解明である。我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文参考訳（メタデータ） (2024-11-09T03:07:33Z)
Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文参考訳（メタデータ） (2024-10-05T02:58:25Z)
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文参考訳（メタデータ） (2024-09-26T21:44:11Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
Geode: A Zero-shot Geospatial Question-Answering Agent with Explicit Reasoning and Precise Spatio-Temporal Retrieval [0.0]
本研究では,ゼロショット地理空間的質問応答タスクを高精度に処理するための先駆的システムを提案する。当社のアプローチは,現在の大規模言語モデルの限界に対処する上で,大幅な改善を図っている。
論文参考訳（メタデータ） (2024-06-26T21:59:54Z)
SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は生物学的と人工知能の両方において重要な要素です本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文参考訳（メタデータ） (2024-06-07T01:06:34Z)
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-06-03T17:59:06Z)
Deep spatial context: when attention-based models meet spatial regression [8.90978723839271]
深部空間コンテキスト(DSCon)法は,空間コンテキストの概念を用いた注意に基づく視覚モデルの研究に役立つ。病理学者にヒントを得たものであるが、様々な領域に応用できる。
論文参考訳（メタデータ） (2024-01-18T15:08:42Z)
A systematic review of geospatial location embedding approaches in large language models: A path to spatial AI systems [0.0]
地理空間的位置埋め込み(GLE)は、大規模言語モデル(LLM)が空間データを同化して解析するのに役立つ。 GLEは、空間的知識をモデルアーキテクチャに組み込む空間的基礎/言語モデル(SLM)の必要性を示唆している。
論文参考訳（メタデータ） (2024-01-12T12:43:33Z)
Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文参考訳（メタデータ） (2023-09-04T13:44:50Z)
MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。 MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-11T03:05:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。