論文の概要: GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields
- arxiv url: http://arxiv.org/abs/2506.23352v1
- Date: Sun, 29 Jun 2025 18:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.843421
- Title: GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields
- Title(参考訳): GeoProg3D:都市規模の3D言語分野のための合成ビジュアル推論
- Authors: Shunsuke Yasuki, Taiki Miyanishi, Nakamasa Inoue, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Masato Taki, Yutaka Matsuo,
- Abstract要約: GeoProg3Dは、都市規模の高忠実度3Dシーンとの自然言語駆動インタラクションを可能にするビジュアルプログラミングフレームワークである。
本フレームワークでは,GV-APIを動的に組み合わせ,GCLFを動作させるための推論エンジンとして,大規模言語モデル(LLM)を採用している。
実験により、GeoProg3Dは既存の3D言語フィールドや視覚言語モデルよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 25.969442927216893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of 3D language fields has enabled intuitive interactions with 3D scenes via natural language. However, existing approaches are typically limited to small-scale environments, lacking the scalability and compositional reasoning capabilities necessary for large, complex urban settings. To overcome these limitations, we propose GeoProg3D, a visual programming framework that enables natural language-driven interactions with city-scale high-fidelity 3D scenes. GeoProg3D consists of two key components: (i) a Geography-aware City-scale 3D Language Field (GCLF) that leverages a memory-efficient hierarchical 3D model to handle large-scale data, integrated with geographic information for efficiently filtering vast urban spaces using directional cues, distance measurements, elevation data, and landmark references; and (ii) Geographical Vision APIs (GV-APIs), specialized geographic vision tools such as area segmentation and object detection. Our framework employs large language models (LLMs) as reasoning engines to dynamically combine GV-APIs and operate GCLF, effectively supporting diverse geographic vision tasks. To assess performance in city-scale reasoning, we introduce GeoEval3D, a comprehensive benchmark dataset containing 952 query-answer pairs across five challenging tasks: grounding, spatial reasoning, comparison, counting, and measurement. Experiments demonstrate that GeoProg3D significantly outperforms existing 3D language fields and vision-language models across multiple tasks. To our knowledge, GeoProg3D is the first framework enabling compositional geographic reasoning in high-fidelity city-scale 3D environments via natural language. The code is available at https://snskysk.github.io/GeoProg3D/.
- Abstract(参考訳): 3D言語分野の進歩により、自然言語による3Dシーンとの直感的な対話が可能になった。
しかし、既存のアプローチは小規模な環境に限られており、大規模で複雑な都市環境に必要なスケーラビリティと構成的推論能力が欠如している。
これらの制約を克服するために,都市規模の高忠実度3Dシーンと自然言語による対話を可能にするビジュアルプログラミングフレームワークGeoProg3Dを提案する。
GeoProg3Dは2つの重要なコンポーネントから構成される。
一 大規模データを扱うためにメモリ効率のよい階層型3次元モデルを活用し、地理情報と統合して、方向測定、距離測定、標高データ、ランドマーク参照を用いて、広域都市空間を効率的にフィルタリングする地理対応都市型3次元言語フィールド(GCLF)
(II)地理ビジョンAPI(GV-API)、地域分割や物体検出などの専門的な地理ビジョンツール。
本フレームワークでは,GV-APIを動的に組み合わせ,GCLFを動作させる推論エンジンとして,大規模言語モデル(LLM)を採用している。
都市規模推論の性能を評価するため,GeoEval3Dを提案する。GeoEval3Dは,グラウンドリング,空間推論,比較,カウント,測定という5つの課題に対して,992の問合せ対を含む総合的なベンチマークデータセットである。
実験により、GeoProg3Dは既存の3D言語フィールドや視覚言語モデルよりも大幅に優れていることが示された。
我々の知る限り、GeoProg3Dは、自然言語による高忠実な都市規模3D環境における構成的地理的推論を可能にする最初のフレームワークである。
コードはhttps://snskysk.github.io/GeoProg3D/で公開されている。
関連論文リスト
- GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [11.704082783192467]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。