論文の概要: Multimodal LLM for Intelligent Transportation Systems
- arxiv url: http://arxiv.org/abs/2412.11683v1
- Date: Mon, 16 Dec 2024 11:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:52.668517
- Title: Multimodal LLM for Intelligent Transportation Systems
- Title(参考訳): インテリジェントトランスポートシステムのためのマルチモーダルLCM
- Authors: Dexter Le, Aybars Yunusoglu, Karn Tiwari, Murat Isik, I. Can Dikmen,
- Abstract要約: 本稿では,アプリケーション,機械学習手法,ハードウェア機器の交わりをカプセル化する新しい3次元フレームワークを提案する。
複数の機械学習アルゴリズムを使う代わりに、我々のフレームワークは時系列、画像、ビデオを分析する単一のデータ中心のLLMアーキテクチャを使用する。
我々は,このLLMフレームワークを,Oxford Radar RobotCar,D-Behavior (D-Set),MotionalのnuScenes,Comma2k19など,さまざまなセンサデータセットに適用した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the evolving landscape of transportation systems, integrating Large Language Models (LLMs) offers a promising frontier for advancing intelligent decision-making across various applications. This paper introduces a novel 3-dimensional framework that encapsulates the intersection of applications, machine learning methodologies, and hardware devices, particularly emphasizing the role of LLMs. Instead of using multiple machine learning algorithms, our framework uses a single, data-centric LLM architecture that can analyze time series, images, and videos. We explore how LLMs can enhance data interpretation and decision-making in transportation. We apply this LLM framework to different sensor datasets, including time-series data and visual data from sources like Oxford Radar RobotCar, D-Behavior (D-Set), nuScenes by Motional, and Comma2k19. The goal is to streamline data processing workflows, reduce the complexity of deploying multiple models, and make intelligent transportation systems more efficient and accurate. The study was conducted using state-of-the-art hardware, leveraging the computational power of AMD RTX 3060 GPUs and Intel i9-12900 processors. The experimental results demonstrate that our framework achieves an average accuracy of 91.33\% across these datasets, with the highest accuracy observed in time-series data (92.7\%), showcasing the model's proficiency in handling sequential information essential for tasks such as motion planning and predictive maintenance. Through our exploration, we demonstrate the versatility and efficacy of LLMs in handling multimodal data within the transportation sector, ultimately providing insights into their application in real-world scenarios. Our findings align with the broader conference themes, highlighting the transformative potential of LLMs in advancing transportation technologies.
- Abstract(参考訳): 交通システムの進化する状況において、Large Language Models(LLMs)の統合は、様々なアプリケーションにわたるインテリジェントな意思決定を促進するための有望なフロンティアを提供する。
本稿では,アプリケーション,機械学習手法,ハードウェアデバイスの共通点をカプセル化する新しい3次元フレームワークについて紹介する。
複数の機械学習アルゴリズムを使う代わりに、我々のフレームワークは時系列、画像、ビデオを分析する単一のデータ中心のLLMアーキテクチャを使用する。
LLMが交通におけるデータ解釈と意思決定をどのように強化するかを考察する。
我々は,このLLMフレームワークを,Oxford Radar RobotCar,D-Behavior (D-Set),MotionalのnuScenes,Comma2k19など,さまざまなセンサデータセットに適用した。
目標は、データ処理ワークフローの合理化、複数のモデルのデプロイの複雑さの低減、インテリジェントな輸送システムの効率化と精度向上にある。
この研究は、AMD RTX 3060 GPUとIntel i9-12900プロセッサの計算能力を利用して、最先端のハードウェアを用いて行われた。
実験の結果,これらのデータセットの平均精度は91.33 %であり,時系列データ(92.7 %)で観測される精度が最も高く,動作計画や予測保守などのタスクに不可欠なシーケンシャル情報を扱う能力を示した。
調査を通じて、輸送部門におけるマルチモーダルデータ処理におけるLLMの汎用性と有効性を示し、最終的に実世界のシナリオにおけるそれらの応用に関する洞察を提供する。
本研究は,交通技術の発展におけるLLMの変革的ポテンシャルを浮き彫りにして,より広範な会議テーマと一致した。
関連論文リスト
- JEMA: A Joint Embedding Framework for Scalable Co-Learning with Multimodal Alignment [0.0]
JEMA(Joint Embedding with Multimodal Alignment)は、レーザー金属沈着(LMD)に適した新しいコラーニングフレームワークである。
教師付きコントラスト学習と比較して,マルチモーダル・セッティングのパフォーマンスは8%向上し,ユニモーダル・セッティングは1%向上した。
我々のフレームワークは、メタデータとマルチセンサデータを統合する基盤を築き、MDドメイン以降の様々な下流タスクを可能にする。
論文 参考訳(メタデータ) (2024-10-31T14:42:26Z) - Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models [16.532357621144342]
大規模言語モデル(LLM)は、人間の知覚と同じような精度で、運転シーンや行動を記述することができる。
エッジデバイスにLLMを適用した運転行動ナレーションと推論フレームワークを提案する。
実験により,エッジデバイスに展開したLCMは,応答速度が良好であることが確認された。
論文 参考訳(メタデータ) (2024-09-30T15:03:55Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。
LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。
本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T17:57:46Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。