論文の概要: Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Spatial Reasoning Questions
- arxiv url: http://arxiv.org/abs/2502.18470v3
- Date: Fri, 14 Mar 2025 02:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:13.609838
- Title: Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Spatial Reasoning Questions
- Title(参考訳): 空間RAG:実世界空間推論問題のための空間検索拡張生成
- Authors: Dazhou Yu, Riyang Bao, Gengchen Mai, Liang Zhao,
- Abstract要約: 本稿では,空間的タスクにRAGを拡張するフレームワークである空間検索拡張生成(Spatial-RAG)を提案する。
多目的ランキング戦略は空間的制約と意味的関連性のバランスを保ち、LLM誘導ジェネレータはコヒーレント応答を保証する。
- 参考スコア(独自算出の注目度): 5.744799747144805
- License:
- Abstract: Spatial reasoning remains a challenge for Large Language Models (LLMs), which struggle with spatial data retrieval and reasoning. We propose Spatial Retrieval-Augmented Generation (Spatial-RAG), a framework that extends RAG to spatial tasks by integrating sparse spatial retrieval (spatial databases) and dense semantic retrieval (LLM-based similarity). A multi-objective ranking strategy balances spatial constraints and semantic relevance, while an LLM-guided generator ensures coherent responses. Experiments on a real-world tourism dataset show that Spatial-RAG significantly improves spatial question answering, bridging the gap between LLMs and spatial intelligence.
- Abstract(参考訳): 空間的推論は、空間的データ検索と推論に苦しむLarge Language Models (LLMs) にとって依然として課題である。
本研究では,空間検索(空間データベース)と密接な意味検索(LLM-based similarity)を統合し,RAGを空間タスクに拡張するフレームワークである空間検索拡張生成(Spatial-Augmented Generation, Spatial-RAG)を提案する。
多目的ランキング戦略は空間的制約と意味的関連性のバランスを保ち、LLM誘導ジェネレータはコヒーレント応答を保証する。
実世界の観光データを用いた実験により,空間RAGは空間的質問応答を著しく改善し,LLMと空間知能のギャップを埋めることを示した。
関連論文リスト
- SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Evaluating the Effectiveness of Large Language Models in Representing and Understanding Movement Trajectories [1.3658544194443192]
本研究は,運動軌跡を表現するAI基盤モデルの能力を評価することに焦点を当てる。
大規模言語モデルの一つ (LLM) を用いて, トラジェクトリの文字列形式を符号化し, トラジェクトリデータ解析における LLM に基づく表現の有効性を評価する。
論文 参考訳(メタデータ) (2024-08-31T02:57:25Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Deep spatial context: when attention-based models meet spatial
regression [8.90978723839271]
深部空間コンテキスト(DSCon)法は,空間コンテキストの概念を用いた注意に基づく視覚モデルの研究に役立つ。
病理学者にヒントを得たものであるが、様々な領域に応用できる。
論文 参考訳(メタデータ) (2024-01-18T15:08:42Z) - A systematic review of geospatial location embedding approaches in large
language models: A path to spatial AI systems [0.0]
地理空間的位置埋め込み(GLE)は、大規模言語モデル(LLM)が空間データを同化して解析するのに役立つ。
GLEは、空間的知識をモデルアーキテクチャに組み込む空間的基礎/言語モデル(SLM)の必要性を示唆している。
論文 参考訳(メタデータ) (2024-01-12T12:43:33Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。