論文の概要: Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing
- arxiv url: http://arxiv.org/abs/2409.18286v1
- Date: Thu, 26 Sep 2024 20:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 07:10:35.897755
- Title: Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing
- Title(参考訳): マルチモーダル大言語モデル(MLLM)を用いた輸送における物体検出の促進 : 包括的レビューと実証試験
- Authors: Huthaifa I. Ashqar, Ahmed Jaber, Taqwa I. Alhadidi, Mohammed Elhenawy,
- Abstract要約: 本研究の目的は,多モード大言語モデル (MLLM) と大規模視覚モデル (VLM) の交通システムにおけるオブジェクト検出への応用を総合的に検証し,実証的に評価することである。
- 参考スコア(独自算出の注目度): 4.79071544824946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aims to comprehensively review and empirically evaluate the application of multimodal large language models (MLLMs) and Large Vision Models (VLMs) in object detection for transportation systems. In the first fold, we provide a background about the potential benefits of MLLMs in transportation applications and conduct a comprehensive review of current MLLM technologies in previous studies. We highlight their effectiveness and limitations in object detection within various transportation scenarios. The second fold involves providing an overview of the taxonomy of end-to-end object detection in transportation applications and future directions. Building on this, we proposed empirical analysis for testing MLLMs on three real-world transportation problems that include object detection tasks namely, road safety attributes extraction, safety-critical event detection, and visual reasoning of thermal images. Our findings provide a detailed assessment of MLLM performance, uncovering both strengths and areas for improvement. Finally, we discuss practical limitations and challenges of MLLMs in enhancing object detection in transportation, thereby offering a roadmap for future research and development in this critical area.
- Abstract(参考訳): 本研究の目的は,多モード大言語モデル (MLLM) と大規模視覚モデル (VLM) の交通システムにおけるオブジェクト検出への応用を総合的に検証し,実証的に評価することである。
第一に,輸送分野におけるMLLMのメリットに関する背景と,これまでの研究におけるMLLM技術の総合的なレビューを行う。
各種輸送シナリオにおけるオブジェクト検出の有効性と限界を強調した。
第2部では、輸送アプリケーションにおけるエンドツーエンドのオブジェクト検出の分類と今後の方向性について概観する。
そこで本研究では,物体検出タスク,道路安全属性抽出,安全クリティカル事象検出,サーマル画像の視覚的推論など,3つの現実的交通問題を対象としたMLLMの実証分析を行った。
本研究は,MLLMの性能を詳細に評価し,改善のための強度と領域を明らかにした。
最後に、輸送における物体検出の強化におけるMLLMの実践的限界と課題について論じ、この重要な領域における今後の研究・開発のためのロードマップを提供する。
関連論文リスト
- Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。
本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文 参考訳(メタデータ) (2024-09-17T14:35:38Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Large Language Models for Mobility in Transportation Systems: A Survey on Forecasting Tasks [8.548422411704218]
機械学習とディープラーニングの方法は、その柔軟性と正確性に好まれる。
大規模言語モデル (LLMs) の出現に伴い、多くの研究者がこれらのモデルと過去の手法を組み合わせ、将来の交通情報や人間の旅行行動を直接予測するためにLLMを適用した。
論文 参考訳(メタデータ) (2024-05-03T02:54:43Z) - Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models [46.862519898969325]
TransportationGamesは(M)LLMを評価するための評価ベンチマークである。
各種(M)LLMの性能を記憶し,理解し,選択したタスクによる交通知識の適用において検証する。
論文 参考訳(メタデータ) (2024-01-09T10:20:29Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。