論文の概要: Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma
- arxiv url: http://arxiv.org/abs/2604.07490v1
- Date: Wed, 08 Apr 2026 18:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.508063
- Title: Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma
- Title(参考訳): DFR-Gemmaを用いた高密度地理空間埋め込みによる固有推論
- Authors: Xuechen Zhang, Aviv Slobodkin, Joydeep Paul, Mandar Sharma, Samet Oymak, Shravya Shetty, Gautam Prasad,
- Abstract要約: Direct Feature Reasoning-Gemma (DFRGemma) は、大規模言語モデル(LLM)が地理的に密接な埋め込みを直接推論できる新しいフレームワークである。
機能クエリや比較,セマンティック記述など,多様な質問応答タスクと埋め込みを組み合わせたマルチタスクベンチマークを導入する。
以上の結果から,埋め込みを主データ入力として扱うことにより,マルチモーダル地理空間知能に対するより直接的な,効率的かつスケーラブルなアプローチが実現された。
- 参考スコア(独自算出の注目度): 23.95968681381851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation learning for geospatial and spatio-temporal data plays a critical role in enabling general-purpose geospatial intelligence. Recent geospatial foundation models, such as the Population Dynamics Foundation Model (PDFM), encode complex population and mobility dynamics into compact embeddings. However, their integration with Large Language Models (LLMs) remains limited. Existing approaches to LLM integration treat these embeddings as retrieval indices or convert them into textual descriptions for reasoning, introducing redundancy, token inefficiency, and numerical inaccuracies. We propose Direct Feature Reasoning-Gemma (DFR-Gemma), a novel framework that enables LLMs to reason directly over dense geospatial embeddings. DFR aligns high-dimensional embeddings with the latent space of an LLM via a lightweight projector, allowing embeddings to be injected as semantic tokens alongside natural language instructions. This design eliminates the need for intermediate textual representations and enables intrinsic reasoning over spatial features. To evaluate this paradigm, we introduce a multi-task geospatial benchmark that pairs embeddings with diverse question-answer tasks, including feature querying, comparison, and semantic description. Experimental results show that DFR allows LLMs to decode latent spatial patterns and perform accurate zero-shot reasoning across tasks, while significantly improving efficiency compared to text-based baselines. Our results demonstrate that treating embeddings as primary data inputs, provides a more direct, efficient, and scalable approach to multimodal geospatial intelligence.
- Abstract(参考訳): 地理空間的・時空間的データの表現学習は、汎用的な地理空間的インテリジェンスを実現する上で重要な役割を担っている。
人口動態基礎モデル(Population Dynamics Foundation Model, PDFM)のような最近の地理空間基盤モデルは、複雑な集団と移動力学をコンパクトな埋め込みにエンコードしている。
しかし、LLM(Large Language Models)との統合は依然として限られている。
LLM統合への既存のアプローチは、これらの埋め込みを検索指標として扱い、推論、冗長性の導入、トークンの非効率性、数値的不正確性のためにテキスト記述に変換する。
DFR-Gemma(Direct Feature Reasoning-Gemma, DFR-Gemma)を提案する。
DFRは軽量プロジェクタを介してLCMの潜在空間に高次元の埋め込みを整列し、自然言語の命令とともに意味トークンとして埋め込みを注入する。
この設計は、中間的なテキスト表現の必要性を排除し、空間的特徴に対する本質的な推論を可能にする。
このパラダイムを評価するために、機能クエリ、比較、意味記述を含む多様な質問応答タスクと埋め込みをペアリングするマルチタスク地理空間ベンチマークを導入する。
実験結果から,DFRはテキストベースベースラインに比べて効率を著しく向上しつつ,遅延空間パターンをデコードし,タスク間のゼロショット推論を正確に行うことができることがわかった。
以上の結果から,埋め込みを主データ入力として扱うことにより,マルチモーダル地理空間知能に対するより直接的な,効率的かつスケーラブルなアプローチが実現された。
関連論文リスト
- GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing [50.961694646995376]
GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。
GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。
複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
論文 参考訳(メタデータ) (2026-01-23T10:12:59Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Exploring Reasoning-Infused Text Embedding with Large Language Models for Zero-Shot Dense Retrieval [24.53573526375476]
Reasoning-Infused Text Embeddingは、埋め込みを計算する前に中間的推論テキストを生成することによって、既存の言語モデル埋め込み技術に基づいている。
推論集約型検索ベンチマークBRIGHTの結果、RITEは多様な領域にわたるゼロショット検索性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-08-29T23:22:34Z) - Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses [11.330846631937671]
我々は,大規模で異質で騒々しい都市空間データセットの統合において,ドメインエキスパートに力を与えるために,大規模言語モデル(LLM)の適用について検討する。
LLMは空間的推論能力を示すが、マクロスケール環境と関連する計算幾何学的タスクを結びつけるのに苦労している。
この手法は, 正確な応答を保ちながら, 誤った初期応答の補正に極めて有効であることを示す。
論文 参考訳(メタデータ) (2025-08-07T03:44:20Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task [0.0]
グリッドワールドナビゲーションタスクにおける大規模言語モデル(LLM)の性能と内部アクティベーションに及ぼすテキストベース空間表現の影響について検討する。
実験の結果, 空間のカルデシアン表現は, モデルサイズに比例して高い成功率と経路効率が得られることがわかった。
この研究は、LLMが空間情報をどのように処理するかの理解を深め、より解釈可能で堅牢なエージェントAIシステムの開発に有用な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-23T19:09:01Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。