論文の概要: IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2507.06993v3
- Date: Tue, 23 Sep 2025 03:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.874715
- Title: IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence
- Title(参考訳): IMAIA:旅行計画と地理空間情報のためのインタラクティブマップAIアシスタント
- Authors: Jieren Deng, Zhizhang Hu, Ziyan He, Aleksandar Cvetkovic, Pak Kiu Chung, Dragomir Yankov, Chiqun Zhang,
- Abstract要約: インタラクティブなマップAIアシスタントであるIMAIAを紹介する。
ベクトル(ストリート)マップと衛星画像の両方との自然言語による対話を可能にする。
カメラの入力を地理空間知能で拡張し、ユーザーが世界を理解するのを助ける。
- 参考スコア(独自算出の注目度): 36.703562827382655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Map applications are still largely point-and-click, making it difficult to ask map-centric questions or connect what a camera sees to the surrounding geospatial context with view-conditioned inputs. We introduce IMAIA, an interactive Maps AI Assistant that enables natural-language interaction with both vector (street) maps and satellite imagery, and augments camera inputs with geospatial intelligence to help users understand the world. IMAIA comprises two complementary components. Maps Plus treats the map as first-class context by parsing tiled vector/satellite views into a grid-aligned representation that a language model can query to resolve deictic references (e.g., ``the flower-shaped building next to the park in the top-right''). Places AI Smart Assistant (PAISA) performs camera-aware place understanding by fusing image--place embeddings with geospatial signals (location, heading, proximity) to ground a scene, surface salient attributes, and generate concise explanations. A lightweight multi-agent design keeps latency low and exposes interpretable intermediate decisions. Across map-centric QA and camera-to-place grounding tasks, IMAIA improves accuracy and responsiveness over strong baselines while remaining practical for user-facing deployments. By unifying language, maps, and geospatial cues, IMAIA moves beyond scripted tools toward conversational mapping that is both spatially grounded and broadly usable.
- Abstract(参考訳): 地図アプリケーションはいまだにポイント・アンド・クリックであり、地図中心の質問をしたり、カメラが周囲の地理空間のコンテキストとビュー条件の入力を結びつけることは困難である。
IMAIAは、ベクトル(ストリート)マップと衛星画像の両方との自然言語インタラクションを可能にする対話型マップAIアシスタントであり、地理空間知能によるカメラ入力を拡張し、ユーザーが世界を理解するのに役立つ。
IMAIAは2つの相補成分からなる。
Map Plusは、タイル付きベクター/サテライトビューをグリッド整列表現に解析することで、地図を第一級のコンテキストとして扱う。
Places AI Smart Assistant(PAISA)は、地理空間信号(位置、方向、近接)を埋め込んで、シーンを接地し、表面の健全な属性を解析し、簡潔な説明を生成することで、カメラ対応の場所理解を実行する。
軽量なマルチエージェント設計はレイテンシを低く保ち、解釈可能な中間決定を公開する。
IMAIAは、地図中心のQAとカメラツープレースグラウンドタスク全体にわたって、強力なベースラインよりも精度と応答性を向上し、ユーザ対応のデプロイメントに実用的であり続ける。
言語、地図、地理空間的手がかりを統一することにより、IMAIAはスクリプト化されたツールを超えて、空間的に接地され広く使用できる会話マッピングへと移行する。
関連論文リスト
- Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。
我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。
計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning [39.934634038758404]
本稿では,検索用時間RAG対応旅行計画の最初のベンチマークであるTP-RAGを紹介する。
我々のデータセットには、2,348の現実世界の旅行クエリ、85,575の微粒なPOI、18,784の注釈付きPOIが含まれている。
論文 参考訳(メタデータ) (2025-04-11T17:02:40Z) - TravelAgent: An AI Assistant for Personalized Travel Planning [36.046107116324826]
大規模言語モデル(LLM)を利用した旅行計画システムであるTravelAgentを紹介する。
TravelAgentはツール使用、推奨、計画、メモリモジュールの4つのモジュールで構成されている。
我々は,TravelAgentの性能を人間とシミュレーションユーザで評価し,その全体的な効果を3つの基準で示し,パーソナライズされたレコメンデーションの精度を確認した。
論文 参考訳(メタデータ) (2024-09-12T14:24:45Z) - Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions [19.03156236107806]
本稿では,その知覚,反映,計画能力に特徴付けられる新しいエージェントワークフローを提案する。
LLaVA-7Bは都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。
論文 参考訳(メタデータ) (2024-08-08T02:28:43Z) - MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [73.81268591484198]
GPTを装備した身体的エージェントは、様々なタスクにまたがる異常な意思決定と一般化能力を示した。
本稿では,グローバルな探索を促進するオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。
本設計の利点を生かして,地図に基づく多段階経路計画を行うエージェントを支援する適応型計画手法を提案する。
論文 参考訳(メタデータ) (2024-01-14T15:34:48Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - Self-Supervised Domain Adaptation for Visual Navigation with Global Map
Consistency [6.385006149689549]
本稿では,視覚ナビゲーションエージェントの自己教師型適応手法を提案する。
提案課題は完全に自己監督的であり, 地味なポーズデータや明示的なノイズモデルからの監視は不要である。
実験の結果,提案課題はエージェントが新しいノイズの多い環境への移動を成功させるのに役立つことがわかった。
論文 参考訳(メタデータ) (2021-10-14T07:14:36Z) - MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation [23.877609358505268]
最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。
本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。
様々なエージェントモデルがナビゲーションタスクの複雑度をまたいでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2020-12-07T18:42:38Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。