論文の概要: iMotion-LLM: Motion Prediction Instruction Tuning
- arxiv url: http://arxiv.org/abs/2406.06211v1
- Date: Mon, 10 Jun 2024 12:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:07:44.222885
- Title: iMotion-LLM: Motion Prediction Instruction Tuning
- Title(参考訳): iMotion-LLM:モーション予測インストラクションチューニング
- Authors: Abdulwahab Felemban, Eslam Mohamed Bakr, Xiaoqian Shen, Jian Ding, Abduallah Mohamed, Mohamed Elhoseiny,
- Abstract要約: iMotion-LLM: 対話型マルチエージェントシナリオのガイドに適したトラジェクティブ予測付きマルチモーダル大規模言語モデルを提案する。
iMotion-LLMは、コンテキストに関連のあるトラジェクトリを生成するキー入力としてテキスト命令を利用する。
これらの発見は、自律ナビゲーションシステムによるマルチエージェント環境のダイナミクスの解釈と予測を可能にするマイルストーンとして機能する。
- 参考スコア(独自算出の注目度): 33.63656257401926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce iMotion-LLM: a Multimodal Large Language Models (LLMs) with trajectory prediction, tailored to guide interactive multi-agent scenarios. Different from conventional motion prediction approaches, iMotion-LLM capitalizes on textual instructions as key inputs for generating contextually relevant trajectories.By enriching the real-world driving scenarios in the Waymo Open Dataset with textual motion instructions, we created InstructWaymo. Leveraging this dataset, iMotion-LLM integrates a pretrained LLM, fine-tuned with LoRA, to translate scene features into the LLM input space. iMotion-LLM offers significant advantages over conventional motion prediction models. First, it can generate trajectories that align with the provided instructions if it is a feasible direction. Second, when given an infeasible direction, it can reject the instruction, thereby enhancing safety. These findings act as milestones in empowering autonomous navigation systems to interpret and predict the dynamics of multi-agent environments, laying the groundwork for future advancements in this field.
- Abstract(参考訳): iMotion-LLM: a Multimodal Large Language Models (LLM) with trajectory prediction, tailored to guide interactive multi-agent scenarios。
従来の動作予測手法とは違って,iMotion-LLMは文脈に関連のある軌道を生成するための重要な入力としてテキスト命令を利用する。
このデータセットを活用して、iMotion-LLMは、LoRAで微調整されたトレーニング済みのLLMを統合し、シーン特徴をLLM入力空間に変換する。
iMotion-LLMは従来の動き予測モデルよりも大きな利点がある。
第一に、もしそれが実現可能な方向であれば、提供された命令と整合する軌道を生成することができる。
第二に、不可能な方向が与えられると、命令を拒否でき、安全性が向上する。
これらの発見は、自律航法システムがマルチエージェント環境の力学を解釈し、予測する上でのマイルストーンとして機能し、この分野における将来の進歩の基盤となる。
関連論文リスト
- Human Motion Instruction Tuning [30.71209562108675]
本稿では,人間の動作指導のためのフレームワークであるLLaMoについて述べる。
LLaMoは、命令チューニングのためのネイティブフォームで動作を保持します。
ビデオデータとモーションデータをテキスト入力と共に処理することで、LLaMoは柔軟な人間中心の分析を可能にする。
論文 参考訳(メタデータ) (2024-11-25T14:38:43Z) - E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Large Language Models Powered Context-aware Motion Prediction in Autonomous Driving [13.879945446114956]
我々はLarge Language Models (LLMs) を用いて、動き予測タスクのグローバルトラフィックコンテキスト理解を強化する。
LLMに関連するコストを考慮すると、コスト効率のよいデプロイメント戦略を提案する。
我々の研究は、LLMの交通シーンの理解と自動運転の動作予測性能を高めるための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-03-17T02:06:49Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - MotionLM: Multi-Agent Motion Forecasting as Language Modeling [15.317827804763699]
マルチエージェント動作予測のための言語モデルであるMotionLMを提案する。
本手法は,対話的なスコアリングに先立って個々のエージェントの軌道生成を行う,ポストホック相互作用をバイパスする。
モデルの逐次分解は、時間的因果条件のロールアウトを可能にする。
論文 参考訳(メタデータ) (2023-09-28T15:46:25Z) - MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and
Guided Intention Querying [110.83590008788745]
自律運転システムにとって、複雑な運転シナリオを理解し、情報的な決定を下すためには、動きの予測が不可欠である。
本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。
最初のMTRフレームワークは、学習可能な意図クエリを備えたトランスフォーマーエンコーダ-デコーダ構造を利用する。
複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-30T16:23:04Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。