論文の概要: Vision-LLMs for Spatiotemporal Traffic Forecasting
- arxiv url: http://arxiv.org/abs/2510.11282v1
- Date: Mon, 13 Oct 2025 11:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.33482
- Title: Vision-LLMs for Spatiotemporal Traffic Forecasting
- Title(参考訳): 時空間交通予測のためのビジョンLLM
- Authors: Ning Yang, Hengyu Zhong, Haijun Zhang, Randall Berry,
- Abstract要約: 大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。
本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。
また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
- 参考スコア(独自算出の注目度): 14.700408329373998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate spatiotemporal traffic forecasting is a critical prerequisite for proactive resource management in dense urban mobile networks. While Large Language Models (LLMs) have shown promise in time series analysis, they inherently struggle to model the complex spatial dependencies of grid-based traffic data. Effectively extending LLMs to this domain is challenging, as representing the vast amount of information from dense geographical grids can be inefficient and overwhelm the model's context. To address these challenges, we propose ST-Vision-LLM, a novel framework that reframes spatiotemporal forecasting as a vision-language fusion problem. Our approach leverages a Vision-LLM visual encoder to process historical global traffic matrices as image sequences, providing the model with a comprehensive global view to inform cell-level predictions. To overcome the inefficiency of LLMs in handling numerical data, we introduce an efficient encoding scheme that represents floating-point values as single tokens via a specialized vocabulary, coupled with a two-stage numerical alignment fine-tuning process. The model is first trained with Supervised Fine-Tuning (SFT) and then further optimized for predictive accuracy using Group Relative Policy Optimization (GRPO), a memory-efficient reinforcement learning method. Evaluations on real-world mobile traffic datasets demonstrate that ST-Vision-LLM outperforms existing methods by 15.6% in long-term prediction accuracy and exceeds the second-best baseline by over 30.04% in cross-domain few-shot scenarios. Our extensive experiments validate the model's strong generalization capabilities across various data-scarce environments.
- Abstract(参考訳): 都市密集型移動ネットワークにおいて,正確な時空間交通予測は,プロアクティブな資源管理にとって重要な前提条件である。
大規模言語モデル(LLM)は時系列解析において有望であるが、グリッドベースのトラフィックデータの複雑な空間依存をモデル化するのに本質的に苦労している。
LLMをこの領域に効果的に拡張することは困難であり、密度の高い地理的グリッドからの膨大な情報の表現は非効率であり、モデルのコンテキストを圧倒する可能性がある。
これらの課題に対処するため,視覚言語融合問題として時空間予測を再構成する新しいフレームワークST-Vision-LLMを提案する。
提案手法では,Vision-LLMビジュアルエンコーダを用いて,歴史的グローバルトラフィック行列を画像シーケンスとして処理し,セルレベル予測の総合的グローバルビューを提供する。
数値データ処理におけるLLMの非効率性を克服するため,2段階の数値アライメント微調整プロセスと合わせて,浮動小数点値を単一トークンとして表現する効率的な符号化方式を提案する。
このモデルはまずスーパーバイザード・ファインチューニング (SFT) を用いて訓練され、さらにメモリ効率の高い強化学習法であるグループ相対ポリシー最適化 (GRPO) を用いて予測精度に最適化される。
実世界のモバイルトラフィックデータセットの評価によると、ST-Vision-LLMは、長期予測精度で既存の手法を15.6%上回り、クロスドメインの少ショットシナリオでは30.04%以上、第2位のベースラインを超えている。
広範囲にわたる実験により、様々なデータ共有環境におけるモデルの強力な一般化能力が検証された。
関連論文リスト
- Scenario Understanding of Traffic Scenes Through Large Visual Language Models [2.3302708486956454]
大規模ビジュアル言語モデル(LVLM)は、画像解析とコンテキストクエリによる分類を自動化することで、魅力的なソリューションを提供する。
本研究では,LVLMが社内データセットとBDD100Kの両方で都市交通シーンを理解し,分類する能力を評価する。
我々は、最先端モデルを統合するスケーラブルなキャプションパイプラインを提案し、新しいデータセットに柔軟なデプロイを可能にする。
論文 参考訳(メタデータ) (2025-01-28T18:23:12Z) - Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - TPLLM: A Traffic Prediction Framework Based on Pretrained Large Language Models [27.306180426294784]
大規模言語モデル(LLM)を利用した新しい交通予測フレームワークであるTPLLMを紹介する。
本フレームワークでは,Lonal Neural Networks (LoCNNs) に基づくシーケンス埋め込み層と,Graph Contemporalal Networks (GCNs) に基づくグラフ埋め込み層を構築し,シーケンスの特徴と空間的特徴を抽出する。
実世界の2つのデータセットの実験では、フルサンプルと数ショットの予測シナリオの両方で、満足できるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-04T17:08:57Z) - Spatial-Temporal Large Language Model for Traffic Prediction [21.69991612610926]
交通予測のための時空間大言語モデル(ST-LLM)を提案する。
ST-LLMでは,各位置の時間ステップをトークンとして定義し,空間的位置とグローバルな時間的パターンを学習するための空間的時間的埋め込みを設計する。
実トラフィックデータセットの実験において、ST-LLMは最先端のモデルより優れた空間時空間学習器である。
論文 参考訳(メタデータ) (2024-01-18T17:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。