論文の概要: Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models
- arxiv url: http://arxiv.org/abs/2405.04909v1
- Date: Wed, 8 May 2024 09:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:54:31.165070
- Title: Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models
- Title(参考訳): Traj-LLM: 事前学習された大規模言語モデルによる軌道予測の強化のための新しい探索
- Authors: Zhengxing Lan, Hongbo Li, Lingshan Liu, Bo Fan, Yisheng Lv, Yilong Ren, Zhiyong Cui,
- Abstract要約: 本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
- 参考スコア(独自算出の注目度): 12.687494201105066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the future trajectories of dynamic traffic actors is a cornerstone task in autonomous driving. Though existing notable efforts have resulted in impressive performance improvements, a gap persists in scene cognitive and understanding of the complex traffic semantics. This paper proposes Traj-LLM, the first to investigate the potential of using Large Language Models (LLMs) without explicit prompt engineering to generate future motion from agents' past/observed trajectories and scene semantics. Traj-LLM starts with sparse context joint coding to dissect the agent and scene features into a form that LLMs understand. On this basis, we innovatively explore LLMs' powerful comprehension abilities to capture a spectrum of high-level scene knowledge and interactive information. Emulating the human-like lane focus cognitive function and enhancing Traj-LLM's scene comprehension, we introduce lane-aware probabilistic learning powered by the pioneering Mamba module. Finally, a multi-modal Laplace decoder is designed to achieve scene-compliant multi-modal predictions. Extensive experiments manifest that Traj-LLM, fortified by LLMs' strong prior knowledge and understanding prowess, together with lane-aware probability learning, outstrips state-of-the-art methods across evaluation metrics. Moreover, the few-shot analysis further substantiates Traj-LLM's performance, wherein with just 50% of the dataset, it outperforms the majority of benchmarks relying on complete data utilization. This study explores equipping the trajectory prediction task with advanced capabilities inherent in LLMs, furnishing a more universal and adaptable solution for forecasting agent motion in a new way.
- Abstract(参考訳): ダイナミック・トラヒック・アクターの将来の軌跡を予測することは、自動運転における画期的な課題である。
既存の顕著な努力によりパフォーマンスは著しく改善されているが、複雑なトラフィックセマンティクスの認識と理解においてギャップは持続している。
本稿では,Raj-LLMを提案する。このTraj-LLMは,大規模言語モデル(LLM)を用いて,エージェントの過去・現在・過去の軌跡やシーンセマンティクスから将来の動きを生成するために,明示的なプロンプトエンジニアリングを使わずに,その可能性について検討する。
Traj-LLM は、エージェントとシーンの特徴を LLM が理解している形式で識別するために、スパースコンテキストのジョイントコーディングから始まる。
そこで我々は,LLMの強力な理解能力を革新的に探求し,ハイレベルなシーン知識とインタラクティブな情報を取り込む。
そこで本研究では,Traj-LLMのシーン理解の促進と,先駆的なMambaモジュールを用いた車線認識確率論的学習を提案する。
最後に、シーン準拠のマルチモーダル予測を実現するために、マルチモーダルなLaplaceデコーダを設計する。
広範囲にわたる実験により、LLMの強い事前知識と理解力によって強化されたTraj-LLMが、車線認識確率学習とともに、評価指標全体にわたって最先端の手法を超越していることが明らかとなった。
さらに、数ショット分析により、Traj-LLMのパフォーマンスがさらに裏付けられ、データセットの50%に過ぎず、完全なデータ利用に依存するベンチマークの大部分を上回ります。
本研究では, LLMに固有の高度な機能を備えた軌道予測タスクの装備について検討し, エージェントの動きを予測するための, より普遍的で適応可能な解を提供する。
関連論文リスト
- Mobility-LLM: Learning Visiting Intentions and Travel Preferences from Human Mobility Data with Large Language Models [22.680033463634732]
位置情報ベースのサービス(LBS)は、チェックインシーケンスを通じて多様な行動に関する広範な人間の移動データを蓄積している。
しかし、チェックインシーケンスを分析する既存のモデルでは、これらのシーケンスに含まれる意味を考慮できない。
複数のタスクのチェックインシーケンスを解析するために,大規模言語モデルを活用した新しいフレームワークである Mobility-LLM を提案する。
論文 参考訳(メタデータ) (2024-10-29T01:58:06Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - iMotion-LLM: Motion Prediction Instruction Tuning [33.63656257401926]
iMotion-LLM: 対話型マルチエージェントシナリオのガイドに適したトラジェクティブ予測付きマルチモーダル大規模言語モデルを提案する。
iMotion-LLMは、コンテキストに関連のあるトラジェクトリを生成するキー入力としてテキスト命令を利用する。
これらの発見は、自律ナビゲーションシステムによるマルチエージェント環境のダイナミクスの解釈と予測を可能にするマイルストーンとして機能する。
論文 参考訳(メタデータ) (2024-06-10T12:22:06Z) - Large Language Models Powered Context-aware Motion Prediction in Autonomous Driving [13.879945446114956]
我々はLarge Language Models (LLMs) を用いて、動き予測タスクのグローバルトラフィックコンテキスト理解を強化する。
LLMに関連するコストを考慮すると、コスト効率のよいデプロイメント戦略を提案する。
我々の研究は、LLMの交通シーンの理解と自動運転の動作予測性能を高めるための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-03-17T02:06:49Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。