論文の概要: GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology
- arxiv url: http://arxiv.org/abs/2604.15495v1
- Date: Thu, 16 Apr 2026 19:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.6408
- Title: GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology
- Title(参考訳): GIST:インテリジェントセマンティックトポロジーによるマルチモーダル知識抽出と空間接地
- Authors: Shivendra Agrawal, Bradley Hayes,
- Abstract要約: 複雑で密集した環境は、人間や具体化されたAIにとって大きな空間的基盤となる。
GISTは、コンシューマグレードの移動点クラウドを意味的に注釈付けされたナビゲーショントポロジに変換するマルチモーダルな知識抽出パイプラインである。
本アーキテクチャでは,シーンを2次元占有マップに抽出し,そのトポロジ的レイアウトを抽出し,知的かつセマンティックな選択を通じて軽量なセマンティック層をオーバーレイする。
- 参考スコア(独自算出の注目度): 2.049702429898688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating complex, densely packed environments like retail stores, warehouses, and hospitals poses a significant spatial grounding challenge for humans and embodied AI. In these spaces, dense visual features quickly become stale given the quasi-static nature of items, and long-tail semantic distributions challenge traditional computer vision. While Vision-Language Models (VLMs) help assistive systems navigate semantically-rich spaces, they still struggle with spatial grounding in cluttered environments. We present GIST (Grounded Intelligent Semantic Topology), a multimodal knowledge extraction pipeline that transforms a consumer-grade mobile point cloud into a semantically annotated navigation topology. Our architecture distills the scene into a 2D occupancy map, extracts its topological layout, and overlays a lightweight semantic layer via intelligent keyframe and semantic selection. We demonstrate the versatility of this structured spatial knowledge through critical downstream Human-AI interaction tasks: (1) an intent-driven Semantic Search engine that actively infers categorical alternatives and zones when exact matches fail; (2) a one-shot Semantic Localizer achieving a 1.04 m top-5 mean translation error; (3) a Zone Classification module that segments the walkable floor plan into high-level semantic regions; and (4) a Visually-Grounded Instruction Generator that synthesizes optimal paths into egocentric, landmark-rich natural language routing. In multi-criteria LLM evaluations, GIST outperforms sequence-based instruction generation baselines. Finally, an in-situ formative evaluation (N=5) yields an 80% navigation success rate relying solely on verbal cues, validating the system's capacity for universal design.
- Abstract(参考訳): 小売店や倉庫、病院など、複雑で密集した環境をナビゲートすることは、人間や具体化されたAIにとって大きな空間的根拠となる。
これらの空間では、アイテムの準静的な性質を考えると、密集した視覚的特徴は急速に停滞し、ロングテールな意味分布は伝統的なコンピュータビジョンに挑戦する。
VLM(Vision-Language Models)は、セマンティックに豊かな空間をナビゲートするシステムを支援するが、いまだに散らばった環境における空間接地に苦戦している。
本稿では,GIST(Grounded Intelligent Semantic Topology)について紹介する。GIST(Grounded Intelligent Semantic Topology)は,コンシューマグレードのモバイルポイントクラウドを意味的に注釈付けされたナビゲーショントポロジに変換するマルチモーダルな知識抽出パイプラインである。
本アーキテクチャでは,シーンを2次元占有マップに抽出し,そのトポロジ的レイアウトを抽出し,インテリジェントなキーフレームとセマンティックセレクションによって軽量なセマンティック層をオーバーレイする。
1) 正確な一致が失敗した場合のカテゴリー的選択肢やゾーンを積極的に推論する意図駆動セマンティックサーチエンジン,(2) 1.04mトップ5の平均翻訳誤差を達成するワンショットセマンティックローカライザ,(3) 歩行可能なフロアプランを高レベルなセマンティック領域に分割するゾーン分類モジュール,(4) 最適な経路をエゴセントリックでランドマークリッチな自然言語ルーティングに合成するビジュアル・グラウンド・インストラクション・ジェネレータ。
多基準LCM評価では、GISTはシーケンスベースの命令生成ベースラインより優れている。
最後に、in-situフォーマティブ評価(N=5)は、動詞の手がかりにのみ依存して80%のナビゲーション成功率をもたらし、システムのユニバーサルデザイン能力を検証する。
関連論文リスト
- Semantic Area Graph Reasoning for Multi-Robot Language-Guided Search [12.427956436869584]
textitSemantic Area Graph Reasoning (SAGR)は、大規模言語モデル(LLM)が環境の構造的セマンティックトポロジ的抽象化を通して、マルチロボット探索とセマンティックサーチの協調を可能にする階層的なフレームワークである。
100のシナリオにわたるHabitat-Matterport3Dデータセットの実験では、SAGRは最先端の探索手法と競合し続け、セマンティックターゲットの探索効率は最大18.8%向上した。
論文 参考訳(メタデータ) (2026-04-17T17:19:54Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - From reactive to cognitive: brain-inspired spatial intelligence for embodied agents [50.99942960312313]
Brain-inspired Space Cognition for Navigation (BSC-Nav) は、エンボディエージェントにおける構造化空間メモリの構築と活用のための統合されたフレームワークである。
BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知マップを構築し、意味的目標に沿った空間的知識を動的に回収する。
論文 参考訳(メタデータ) (2025-08-24T03:20:48Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation [15.302043040651368]
自然言語の指示に基づいて見えない環境をナビゲートすることは、自我中心のエージェントにとって依然として困難である。
多様な視点からエージェントが環境を接地することを奨励するために,多種多様なセマンティック理解と空間認識アーキテクチャを提案する。
実験により、SUSAのハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-12-09T13:10:28Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。