論文の概要: Traj-MLLM: Can Multimodal Large Language Models Reform Trajectory Data Mining?
- arxiv url: http://arxiv.org/abs/2509.00053v1
- Date: Mon, 25 Aug 2025 06:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.032005
- Title: Traj-MLLM: Can Multimodal Large Language Models Reform Trajectory Data Mining?
- Title(参考訳): Traj-MLLM: マルチモーダルな大規模言語モデルによるデータマイニングは可能か?
- Authors: Shuo Liu, Di Yao, Yan Lin, Gao Cong, Jingping Bi,
- Abstract要約: トラジェクティブデータマイニングにMLLMを用いた最初の汎用フレームワークである textttTraj-MLLM を提案する。
textttTraj-MLLMは、重要な時空間特性を保持しながら、生の軌跡をインターリーブされた画像テキストシーケンスに変換する。
4つの公開データセットの実験では、textttTraj-MLLMが最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 16.718696916767428
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building a general model capable of analyzing human trajectories across different geographic regions and different tasks becomes an emergent yet important problem for various applications. However, existing works suffer from the generalization problem, \ie, they are either restricted to train for specific regions or only suitable for a few tasks. Given the recent advances of multimodal large language models (MLLMs), we raise the question: can MLLMs reform current trajectory data mining and solve the problem? Nevertheless, due to the modality gap of trajectory, how to generate task-independent multimodal trajectory representations and how to adapt flexibly to different tasks remain the foundational challenges. In this paper, we propose \texttt{Traj-MLLM}}, which is the first general framework using MLLMs for trajectory data mining. By integrating multiview contexts, \texttt{Traj-MLLM}} transforms raw trajectories into interleaved image-text sequences while preserving key spatial-temporal characteristics, and directly utilizes the reasoning ability of MLLMs for trajectory analysis. Additionally, a prompt optimization method is proposed to finalize data-invariant prompts for task adaptation. Extensive experiments on four publicly available datasets show that \texttt{Traj-MLLM}} outperforms state-of-the-art baselines by $48.05\%$, $15.52\%$, $51.52\%$, $1.83\%$ on travel time estimation, mobility prediction, anomaly detection and transportation mode identification, respectively. \texttt{Traj-MLLM}} achieves these superior performances without requiring any training data or fine-tuning the MLLM backbones.
- Abstract(参考訳): 異なる地理的領域と異なるタスクにわたる人間の軌跡を解析できる汎用モデルの構築は、様々なアプリケーションにおいて、緊急かつ重要な問題となっている。
しかし、既存の作業は一般化の問題である「i」に悩まされ、特定の分野の訓練に制限されるか、いくつかのタスクにのみ適合する。
MLLM(Multimodal large language model)の最近の進歩を踏まえ、MLLMは現在の軌跡データマイニングを改革し、その問題を解決することができるのか?
それでも、軌道のモダリティギャップのため、タスク非依存の多モーダル軌道表現の生成方法や、異なるタスクに柔軟に適応する方法は基礎的な課題である。
本稿では,MLLMをトラジェクティブデータマイニングに用いる最初の汎用フレームワークである‘texttt{Traj-MLLM}}を提案する。
マルチビューコンテキストを統合することにより,生のトラジェクトリをインターリーブされた画像テキストシーケンスに変換するとともに,重要な時空間特性を保ち,MLLMの推論能力を直接利用してトラジェクトリ分析を行う。
さらに,タスク適応のためのデータ不変プロンプトを確定するために,プロンプト最適化手法を提案する。
公開された4つのデータセットの大規模な実験によると、'texttt{Traj-MLLM}} は最先端のベースラインを48.05\%$, $115.52\%$, 5,1.52\%$, $1.83\%$でそれぞれ、旅行時間推定、移動予測、異常検出、輸送モード識別に勝っている。
\texttt{Traj-MLLM}}は、トレーニングデータやMLLMのバックボーンを微調整することなく、これらの優れたパフォーマンスを実現する。
関連論文リスト
- Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - How to Bridge the Gap between Modalities: Survey on Multimodal Large Language Model [12.358079352117699]
テキストや画像,音声などを含むマルチモーダルデータの処理にLLMを統合したマルチモーダル大規模言語モデル(MLLM)について検討する。
MLLMはマルチモーダルデータのセマンティックギャップに対処する上で、誤った出力につながる可能性がある。
効果的なモダリティアライメントの実装は、LLMが環境問題に対処し、アクセシビリティを高めるのに役立つ。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。