論文の概要: Enhanced Motion Forecasting with Plug-and-Play Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.17274v1
- Date: Mon, 20 Oct 2025 08:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.36113
- Title: Enhanced Motion Forecasting with Plug-and-Play Multimodal Large Language Models
- Title(参考訳): プラグイン・アンド・プレイ型大規模言語モデルによる動き予測の強化
- Authors: Katie Luo, Jingwei Ji, Tong He, Runsheng Xu, Yichen Xie, Dragomir Anguelov, Mingxing Tan,
- Abstract要約: PnF(Plug-and-Forecast)は,マルチモーダル大言語モデル(MLLM)を用いた既存の動き予測モデルを強化するプラグイン・アンド・プレイ方式である。
PnFは、自然言語が複雑なシナリオを記述し、処理するためのより効果的な方法を提供するという洞察に基づいて構築されている。
本手法はMLLMのゼロショット推論機能を利用して,微調整を必要とせず,動作予測性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 40.17845169929452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current autonomous driving systems rely on specialized models for perceiving and predicting motion, which demonstrate reliable performance in standard conditions. However, generalizing cost-effectively to diverse real-world scenarios remains a significant challenge. To address this, we propose Plug-and-Forecast (PnF), a plug-and-play approach that augments existing motion forecasting models with multimodal large language models (MLLMs). PnF builds on the insight that natural language provides a more effective way to describe and handle complex scenarios, enabling quick adaptation to targeted behaviors. We design prompts to extract structured scene understanding from MLLMs and distill this information into learnable embeddings to augment existing behavior prediction models. Our method leverages the zero-shot reasoning capabilities of MLLMs to achieve significant improvements in motion prediction performance, while requiring no fine-tuning -- making it practical to adopt. We validate our approach on two state-of-the-art motion forecasting models using the Waymo Open Motion Dataset and the nuScenes Dataset, demonstrating consistent performance improvements across both benchmarks.
- Abstract(参考訳): 現在の自律運転システムは、標準条件における信頼性の高い性能を示す動きの知覚と予測のための特殊なモデルに依存している。
しかし、様々な現実世界のシナリオに費用対効果を一般化することは大きな課題である。
そこで本稿では,Multimodal large language model (MLLM) を用いて既存の動き予測モデルを拡張するプラグイン・アンド・フォアキャスト(PnF)を提案する。
PnFは、自然言語が複雑なシナリオを記述し、処理するためのより効果的な方法を提供するという洞察に基づいて構築されている。
我々はMLLMから構造化されたシーン理解を抽出し、既存の行動予測モデルを強化するための学習可能な埋め込みに抽出するプロンプトを設計する。
本手法は, MLLMのゼロショット推論機能を活用し, 微調整を必要とせず, 動作予測性能を大幅に向上させる。
Waymo Open Motion DatasetとnuScenes Datasetを用いた2つの最先端モーション予測モデルに対するアプローチを検証する。
関連論文リスト
- Aligning Effective Tokens with Video Anomaly in Large Language Models [52.620554265703916]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - LLM4FTS: Enhancing Large Language Models for Financial Time Series Prediction [0.0]
従来の機械学習モデルは、制限されたモデル容量に制約された予測タスクに制限を示す。
我々は、学習可能なパッチセグメンテーションと動的ウェーブレット畳み込みモジュールによる時間的シーケンスモデリングを強化する新しいフレームワークLLM4FTS$を提案する。
実世界の金融データセットの実験は、このフレームワークの有効性を実証し、複雑な市場パターンを捉える上で優れたパフォーマンスを示し、ストックリターン予測の最先端結果を達成する。
論文 参考訳(メタデータ) (2025-05-05T06:48:34Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。