論文の概要: iMotion-LLM: Motion Prediction Instruction Tuning
- arxiv url: http://arxiv.org/abs/2406.06211v1
- Date: Mon, 10 Jun 2024 12:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:07:44.222885
- Title: iMotion-LLM: Motion Prediction Instruction Tuning
- Title(参考訳): iMotion-LLM:モーション予測インストラクションチューニング
- Authors: Abdulwahab Felemban, Eslam Mohamed Bakr, Xiaoqian Shen, Jian Ding, Abduallah Mohamed, Mohamed Elhoseiny,
- Abstract要約: iMotion-LLM: 対話型マルチエージェントシナリオのガイドに適したトラジェクティブ予測付きマルチモーダル大規模言語モデルを提案する。
iMotion-LLMは、コンテキストに関連のあるトラジェクトリを生成するキー入力としてテキスト命令を利用する。
これらの発見は、自律ナビゲーションシステムによるマルチエージェント環境のダイナミクスの解釈と予測を可能にするマイルストーンとして機能する。
- 参考スコア(独自算出の注目度): 33.63656257401926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce iMotion-LLM: a Multimodal Large Language Models (LLMs) with trajectory prediction, tailored to guide interactive multi-agent scenarios. Different from conventional motion prediction approaches, iMotion-LLM capitalizes on textual instructions as key inputs for generating contextually relevant trajectories.By enriching the real-world driving scenarios in the Waymo Open Dataset with textual motion instructions, we created InstructWaymo. Leveraging this dataset, iMotion-LLM integrates a pretrained LLM, fine-tuned with LoRA, to translate scene features into the LLM input space. iMotion-LLM offers significant advantages over conventional motion prediction models. First, it can generate trajectories that align with the provided instructions if it is a feasible direction. Second, when given an infeasible direction, it can reject the instruction, thereby enhancing safety. These findings act as milestones in empowering autonomous navigation systems to interpret and predict the dynamics of multi-agent environments, laying the groundwork for future advancements in this field.
- Abstract(参考訳): iMotion-LLM: a Multimodal Large Language Models (LLM) with trajectory prediction, tailored to guide interactive multi-agent scenarios。
従来の動作予測手法とは違って,iMotion-LLMは文脈に関連のある軌道を生成するための重要な入力としてテキスト命令を利用する。
このデータセットを活用して、iMotion-LLMは、LoRAで微調整されたトレーニング済みのLLMを統合し、シーン特徴をLLM入力空間に変換する。
iMotion-LLMは従来の動き予測モデルよりも大きな利点がある。
第一に、もしそれが実現可能な方向であれば、提供された命令と整合する軌道を生成することができる。
第二に、不可能な方向が与えられると、命令を拒否でき、安全性が向上する。
これらの発見は、自律航法システムがマルチエージェント環境の力学を解釈し、予測する上でのマイルストーンとして機能し、この分野における将来の進歩の基盤となる。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models [48.46007039539533]
本稿では,Large Language Models (LLM) の強い推論能力と自己説明能力を活用する,説明可能なレーン変更予測モデルを提案する。
大規模高次元データセットに対する実験により,車線変化予測タスクにおけるLC-LLMの優れた性能と解釈性を示した。
論文 参考訳(メタデータ) (2024-03-27T08:34:55Z) - Large Language Models Powered Context-aware Motion Prediction [13.879945446114956]
我々はLarge Language Models (LLMs) を用いて、動き予測タスクのグローバルトラフィックコンテキスト理解を強化する。
LLMに関連するコストを考慮すると、コスト効率のよいデプロイメント戦略を提案する。
我々の研究は、LLMの交通シーンの理解と自動運転の動作予測性能を高めるための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-03-17T02:06:49Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - MotionLM: Multi-Agent Motion Forecasting as Language Modeling [15.317827804763699]
マルチエージェント動作予測のための言語モデルであるMotionLMを提案する。
本手法は,対話的なスコアリングに先立って個々のエージェントの軌道生成を行う,ポストホック相互作用をバイパスする。
モデルの逐次分解は、時間的因果条件のロールアウトを可能にする。
論文 参考訳(メタデータ) (2023-09-28T15:46:25Z) - MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and
Guided Intention Querying [110.83590008788745]
自律運転システムにとって、複雑な運転シナリオを理解し、情報的な決定を下すためには、動きの予測が不可欠である。
本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。
最初のMTRフレームワークは、学習可能な意図クエリを備えたトランスフォーマーエンコーダ-デコーダ構造を利用する。
複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-30T16:23:04Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。