論文の概要: Eyes Will Shut: A Vision-Based Next GPS Location Prediction Model by Reinforcement Learning from Visual Map Feed Back
- arxiv url: http://arxiv.org/abs/2507.18661v2
- Date: Mon, 28 Jul 2025 04:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 12:09:50.633331
- Title: Eyes Will Shut: A Vision-Based Next GPS Location Prediction Model by Reinforcement Learning from Visual Map Feed Back
- Title(参考訳): 視覚マップからの強化学習による視覚に基づく次世代GPS位置予測モデル
- Authors: Ruixing Zhang, Yang Zhang, Tongyu Zhu, Leilei Sun, Weifeng Lv,
- Abstract要約: 次の位置予測は、人間の移動性の研究における基本的な課題である。
VLM(Vision-Language Models)の最近の開発は、視覚知覚や視覚的推論において強力な能力を示している。
第1段階では,道路ネットワークと軌道構造を理解するのに役立つ2つのスーパービジョンファインチューニングタスクを設計する。
第2段階では、ビジュアルマップフィードバックからの強化学習を導入し、モデルが次の位置予測能力を自己改善できるようにする。
- 参考スコア(独自算出の注目度): 25.50467870648379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next Location Prediction is a fundamental task in the study of human mobility, with wide-ranging applications in transportation planning, urban governance, and epidemic forecasting. In practice, when humans attempt to predict the next location in a trajectory, they often visualize the trajectory on a map and reason based on road connectivity and movement trends. However, the vast majority of existing next-location prediction models do not reason over maps \textbf{in the way that humans do}. Fortunately, the recent development of Vision-Language Models (VLMs) has demonstrated strong capabilities in visual perception and even visual reasoning. This opens up a new possibility: by rendering both the road network and trajectory onto an image and leveraging the reasoning abilities of VLMs, we can enable models to perform trajectory inference in a human-like manner. To explore this idea, we first propose a method called Vision-Guided Location Search (VGLS), which evaluates whether a general-purpose VLM is capable of trajectory-based reasoning without modifying any of its internal parameters. Based on insights from the VGLS results, we further propose our main approach: VLMLocPredictor, which is composed of two stages: In the first stage, we design two Supervised Fine-Tuning (SFT) tasks that help the VLM understand road network and trajectory structures and acquire basic reasoning ability on such visual inputs. In the second stage, we introduce Reinforcement Learning from Visual Map Feedback, enabling the model to self-improve its next-location prediction ability through interaction with the environment. Experiments conducted on datasets from four different cities show that our method achieves state-of-the-art (SOTA) performance and exhibits superior cross-city generalization compared to other LLM-based approaches.
- Abstract(参考訳): 次世代の立地予測は、交通計画、都市ガバナンス、流行予測に幅広く応用されている、人間の移動性の研究における基本的な課題である。
実際には、人間が軌道上の次の位置を予測しようとすると、しばしば地図上で軌道を可視化し、道路の接続性や動きの傾向に基づいて理由を導出する。
しかし、既存の次の位置予測モデルの大半は、地図 \textbf{ in the way of human do} に従わない。
幸いなことに、近年のVLM(Vision-Language Models)の発展は、視覚知覚や視覚的推論において強力な能力を示している。
これにより、道路ネットワークと軌跡の両方を画像上にレンダリングし、VLMの推論能力を活用することにより、モデルが人間のような方法で軌道推定を行えるようになる。
このアイデアを探索するために、まず視覚誘導位置探索(VGLS)と呼ばれる手法を提案し、VLMが内部パラメータを変更せずに軌道に基づく推論が可能かどうかを評価する。
VGLSの結果から得られた知見に基づいて、VLMLocPredictorは2つの段階から構成される。 第一段階では、VLMが道路ネットワークと軌道構造を理解し、そのような視覚的な入力に対して基本的な推論能力を得るのに役立つ2つのスーパービジョンファインタニング(SFT)タスクを設計する。
第2段階では、視覚マップからの強化学習を導入し、環境との相互作用を通じて次の位置予測能力を自己改善する。
4つの異なる都市のデータセットを用いて行った実験から,本手法がSOTA(State-of-the-art)性能を達成し,他のLCM手法と比較して都市間一般化が優れていることが示された。
関連論文リスト
- VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Distribution-aware Goal Prediction and Conformant Model-based Planning
for Safe Autonomous Driving [16.654299927694716]
本研究では,学習から学習までのタスクを,障害物認識と接地,分布認識の目標予測,モデルベース計画として再構築する。
CARLAシミュレータでは,CARNOVELベンチマークの最先端結果を報告する。
論文 参考訳(メタデータ) (2022-12-16T21:51:51Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。