論文の概要: MITS: A Large-Scale Multimodal Benchmark Dataset for Intelligent Traffic Surveillance
- arxiv url: http://arxiv.org/abs/2509.09730v1
- Date: Wed, 10 Sep 2025 12:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.863936
- Title: MITS: A Large-Scale Multimodal Benchmark Dataset for Intelligent Traffic Surveillance
- Title(参考訳): MITS: インテリジェントトラフィック監視のための大規模マルチモーダルベンチマークデータセット
- Authors: Kaikai Zhao, Zhaoxiang Liu, Peng Wang, Xin Wang, Zhicheng Ma, Yajun Xu, Wenjing Zhang, Yibing Nan, Kai Wang, Shiguo Lian,
- Abstract要約: 我々はMITS(Multimodal Intelligent Traffic Surveillance)を紹介した。
MITSには、交通監視カメラから得られた1万1400件の独立して収集された現実世界のITS画像が含まれている。
我々は、高品質な画像キャプションと500万の指示追従型視覚質問応答ペアを生成し、5つの重要なITSタスクに対処する。
- 参考スコア(独自算出の注目度): 10.956987319921112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-domain large multimodal models (LMMs) have achieved significant advances in various image-text tasks. However, their performance in the Intelligent Traffic Surveillance (ITS) domain remains limited due to the absence of dedicated multimodal datasets. To address this gap, we introduce MITS (Multimodal Intelligent Traffic Surveillance), the first large-scale multimodal benchmark dataset specifically designed for ITS. MITS includes 170,400 independently collected real-world ITS images sourced from traffic surveillance cameras, annotated with eight main categories and 24 subcategories of ITS-specific objects and events under diverse environmental conditions. Additionally, through a systematic data generation pipeline, we generate high-quality image captions and 5 million instruction-following visual question-answer pairs, addressing five critical ITS tasks: object and event recognition, object counting, object localization, background analysis, and event reasoning. To demonstrate MITS's effectiveness, we fine-tune mainstream LMMs on this dataset, enabling the development of ITS-specific applications. Experimental results show that MITS significantly improves LMM performance in ITS applications, increasing LLaVA-1.5's performance from 0.494 to 0.905 (+83.2%), LLaVA-1.6's from 0.678 to 0.921 (+35.8%), Qwen2-VL's from 0.584 to 0.926 (+58.6%), and Qwen2.5-VL's from 0.732 to 0.930 (+27.0%). We release the dataset, code, and models as open-source, providing high-value resources to advance both ITS and LMM research.
- Abstract(参考訳): 汎用ドメイン大規模マルチモーダルモデル (LMM) は様々な画像テキストタスクにおいて大きな進歩を遂げている。
しかし、Intelligent Traffic Surveillance (ITS) ドメインのパフォーマンスは、専用のマルチモーダルデータセットがないために制限されている。
このギャップに対処するために、MITS(Multimodal Intelligent Traffic Surveillance)を紹介します。
MITSには、交通監視カメラから収集された170,400の実際のITS画像が含まれており、8つの主要なカテゴリと24のサブカテゴリのITS固有のオブジェクトとイベントが、多様な環境条件下で注釈付けされている。
さらに、体系的なデータ生成パイプラインを通じて、高品質な画像キャプションと500万の指示追従型視覚質問応答ペアを生成し、オブジェクトとイベント認識、オブジェクトのカウント、オブジェクトのローカライゼーション、バックグラウンド分析、イベント推論の5つの重要なITSタスクに対処する。
MITSの有効性を示すため、このデータセット上でメインストリームのLMMを微調整し、ITS固有のアプリケーションの開発を可能にする。
実験の結果、MITSはITSアプリケーションのLMM性能を大幅に改善し、LLaVA-1.5は0.494から0.905(+83.2%)、LLaVA-1.6は0.678から0.921(+35.8%)、Qwen2-VLは0.584から0.926(+58.6%)、Qwen2.5-VLは0.732から0.930(+27.0%)となった。
我々は、データセット、コード、モデルをオープンソースとしてリリースし、ITSとLMMの両方の研究を進めるための高価値なリソースを提供します。
関連論文リスト
- MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning [4.963955559863751]
MMAT-1Mは、CoT、リフレクション、動的ツールの使用をサポートするために設計された最初の100万規模のマルチモーダルエージェントチューニングデータセットである。
我々のデータセットは、新しい4段階のデータエンジンによって構築されます。
MMAT-1M上でのオープンソースのマルチモーダルモデルを微調整することにより,大幅な性能向上を観測する。
論文 参考訳(メタデータ) (2025-07-29T15:39:14Z) - LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs [52.79503055897109]
大規模マルチモーダル画像生成評価のための総合的データセットとベンチマークであるEvalMi-50Kを提案する。
複数の次元から大きなマルチモーダルT2Iを生成するためのLMM4LMMを提案する。
論文 参考訳(メタデータ) (2025-04-11T08:46:49Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs [42.57007182613632]
我々は,30種類のマルチモーダル大言語モデル (MLLM) に対して,相当なベンチマークを行うベンチマークを構築した。
私たちの知る限り、MLLMコミュニティにとってこれが初めての視覚対応データセットとベンチマークです。
CoLVA-InternVL2-4Bは、GPT-4oと最高のオープンソースMLLMであるQwen2VL-72Bをそれぞれ7.15%、OAは11.72%、MMVMベンチマークで49.80%の精度(OA)を達成した。
論文 参考訳(メタデータ) (2025-01-08T18:30:53Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - ShareGPT4V: Improving Large Multi-Modal Models with Better Captions [81.95879920888716]
120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
論文 参考訳(メタデータ) (2023-11-21T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。