論文の概要: The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications
- arxiv url: http://arxiv.org/abs/2406.13898v1
- Date: Thu, 20 Jun 2024 00:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:56:21.988274
- Title: The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications
- Title(参考訳): 熱画像からの物体検出における多モーダル大言語モデルの利用:交通応用
- Authors: Huthaifa I. Ashqar, Taqwa I. Alhadidi, Mohammed Elhenawy, Nour O. Khanfar,
- Abstract要約: 熱画像データとMLLM(Multimodal Large Language Models)の統合は、自律運転システムの安全性と機能を改善するエキサイティングな機会となっている。
本研究では, MLLMがRGBやサーマルカメラの複雑な画像を理解し, 物体を直接検出できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 4.79071544824946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of thermal imaging data with Multimodal Large Language Models (MLLMs) constitutes an exciting opportunity for improving the safety and functionality of autonomous driving systems and many Intelligent Transportation Systems (ITS) applications. This study investigates whether MLLMs can understand complex images from RGB and thermal cameras and detect objects directly. Our goals were to 1) assess the ability of the MLLM to learn from information from various sets, 2) detect objects and identify elements in thermal cameras, 3) determine whether two independent modality images show the same scene, and 4) learn all objects using different modalities. The findings showed that both GPT-4 and Gemini were effective in detecting and classifying objects in thermal images. Similarly, the Mean Absolute Percentage Error (MAPE) for pedestrian classification was 70.39% and 81.48%, respectively. Moreover, the MAPE for bike, car, and motorcycle detection were 78.4%, 55.81%, and 96.15%, respectively. Gemini produced MAPE of 66.53%, 59.35% and 78.18% respectively. This finding further demonstrates that MLLM can identify thermal images and can be employed in advanced imaging automation technologies for ITS applications.
- Abstract(参考訳): 熱画像データとMLLM(Multimodal Large Language Models)の統合は、自律運転システムと多くのインテリジェントトランスポーテーションシステム(ITS)アプリケーションの安全性と機能を改善するエキサイティングな機会となっている。
本研究では, MLLMがRGBやサーマルカメラの複雑な画像を理解し, 物体を直接検出できるかどうかを検討する。
私たちの目標は
1)MLLMが様々な集合から情報から学習する能力を評価する。
2)熱カメラの物体を検知し、要素を識別する。
3)2つの独立したモダリティ画像が同じ場面を示すか否かを判断し、
4) 異なるモダリティを使って全てのオブジェクトを学習する。
その結果,GPT-4とGeminiは熱画像中の物体の検出と分類に有効であった。
同様に、歩行者分類における平均絶対パーセンテージ誤差(MAPE)は、それぞれ70.39%と81.48%であった。
さらに、自転車、自動車、オートバイ検出用のMAPEはそれぞれ78.4%、55.81%、96.15%であった。
ジェミニは、それぞれ66.53%、59.35%、78.18%のMAPEを生産した。
この発見は、MLLMが熱画像を識別し、ITSアプリケーションのための高度な画像自動化技術に応用できることをさらに示している。
関連論文リスト
- EMMA: End-to-End Multimodal Model for Autonomous Driving [56.972452552944056]
本稿では,自動走行のためのエンドツーエンドマルチモーダルモデルEMMAを紹介する。
EMMAはマルチモーダルな大規模言語モデル基盤に基づいて構築され、生のカメラセンサーデータを様々な駆動特有の出力に直接マッピングする。
論文 参考訳(メタデータ) (2024-10-30T17:46:31Z) - Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - PTA-Det: Point Transformer Associating Point cloud and Image for 3D
Object Detection [3.691671505269693]
多くのマルチモーダル検出法は、LiDARのみの手法よりもさらに悪い性能を発揮する。
Pseudo Point Cloud Generation Networkは、画像情報を疑似ポイントで変換するために提案されている。
画像からのLiDAR点と擬似点の特徴は、統一された点ベース表現の下で深く融合することができる。
論文 参考訳(メタデータ) (2023-01-18T04:35:49Z) - Multi-Modal Domain Fusion for Multi-modal Aerial View Object
Classification [4.438928487047433]
マルチモーダルデータから領域不変性を学習するために,新しいマルチモーダルドメイン融合(MDF)ネットワークを提案する。
ネットワークはTrack-1で25.3%、Track-2でトップ5で34.26%の精度でトップ10のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-12-14T05:14:02Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - High-level camera-LiDAR fusion for 3D object detection with machine
learning [0.0]
本稿では,自律運転などの応用において重要な3次元物体検出問題に取り組む。
モノクロカメラとLiDARデータを組み合わせた機械学習パイプラインを使用して、動くプラットフォームの周囲の3D空間内の車両を検出する。
本結果は,検証セットに対して効率よく精度の高い推定を行い,全体の精度は87.1%となった。
論文 参考訳(メタデータ) (2021-05-24T01:57:34Z) - Exploring Thermal Images for Object Detection in Underexposure Regions
for Autonomous Driving [67.69430435482127]
アンダーエクスポージャー地域は、安全な自動運転のための周囲の完全な認識を構築するのに不可欠である。
サーマルカメラが利用可能になったことで、他の光学センサーが解釈可能な信号を捉えていない地域を探索するための重要な代替手段となった。
本研究は,可視光画像から熱画像へ学習を伝達するためのスタイル伝達手法を用いたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。