論文の概要: SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding
- arxiv url: http://arxiv.org/abs/2508.06763v1
- Date: Sat, 09 Aug 2025 00:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.537649
- Title: SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding
- Title(参考訳): SafePLUG: 交通事故理解のための画素レベルインサイトと時間グラウンドによるマルチモーダルLLMの活用
- Authors: Zihao Sheng, Zilin Huang, Yen-Jung Chen, Yansong Qu, Yuhao Luo, Yue Leng, Sikai Chen,
- Abstract要約: MLLM(Multimodal large language model)は、様々な視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,Pixel-Level Understanding と temporal Grounding を併用して,交通事故の包括的解析を可能にする新しいフレームワークであるSafePLUGを提案する。
多様な事故シナリオに着目したマルチモーダルな質問応答ペアを含む新しいデータセットを,詳細なピクセルレベルのアノテーションと時間的イベント境界でキュレートする。
- 参考スコア(独自算出の注目度): 1.9005201563383274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress across a range of vision-language tasks and demonstrate strong potential for traffic accident understanding. However, existing MLLMs in this domain primarily focus on coarse-grained image-level or video-level comprehension and often struggle to handle fine-grained visual details or localized scene components, limiting their applicability in complex accident scenarios. To address these limitations, we propose SafePLUG, a novel framework that empowers MLLMs with both Pixel-Level Understanding and temporal Grounding for comprehensive traffic accident analysis. SafePLUG supports both arbitrary-shaped visual prompts for region-aware question answering and pixel-level segmentation based on language instructions, while also enabling the recognition of temporally anchored events in traffic accident scenarios. To advance the development of MLLMs for traffic accident understanding, we curate a new dataset containing multimodal question-answer pairs centered on diverse accident scenarios, with detailed pixel-level annotations and temporal event boundaries. Experimental results show that SafePLUG achieves strong performance on multiple tasks, including region-based question answering, pixel-level segmentation, temporal event localization, and accident event understanding. These capabilities lay a foundation for fine-grained understanding of complex traffic scenes, with the potential to improve driving safety and enhance situational awareness in smart transportation systems. The code, dataset, and model checkpoints will be made publicly available at: https://zihaosheng.github.io/SafePLUG
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な進歩を遂げており,交通事故の理解に強い可能性を示している。
しかし、この領域の既存のMLLMは主に粗い画像レベルまたはビデオレベルの理解に焦点を当てており、複雑な事故シナリオにおける適用性を制限するために、細かな視覚的詳細や局所化されたシーンコンポーネントを扱うのに苦労することが多い。
これらの制約に対処するため,我々は,Pixel-Level Understanding と temporal Grounding を併用し,交通事故の包括的解析を可能にする新しいフレームワークであるSafePLUGを提案する。
SafePLUGは、地域対応質問応答のための任意の形状の視覚的プロンプトと、言語命令に基づくピクセルレベルのセグメンテーションをサポートし、また交通事故シナリオにおける時間的アンカーイベントの認識を可能にする。
交通事故理解のためのMLLMの開発を進めるため,様々な事故シナリオを中心に,詳細なピクセルレベルのアノテーションと時間的イベント境界を備えた複数モーダル質問応答ペアを含む新しいデータセットをキュレートする。
実験の結果, SafePLUGは, 領域ベースの質問応答, ピクセルレベルのセグメンテーション, 時間的事象の局所化, 事故イベントの理解など, 複数タスクにおいて高い性能を発揮することがわかった。
これらの能力は複雑な交通シーンのきめ細かい理解の基礎となり、運転安全性を改善し、スマート交通システムにおける状況認識を高める可能性がある。
コード、データセット、モデルチェックポイントは、https://zihaosheng.github.io/SafePLUGで公開されます。
関連論文リスト
- SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios [10.353093987945012]
マルチモーダル大規模言語モデル(MLLM)は、多くの自律運転タスクにおいて満足な効果を示している。
本稿では,MLLMを用いて,協調的セマンティック・シーン理解とリスク・ローカライゼーションの課題を解決する。
本手法はシーン理解タスクにおいて,80.1%のBLEU-1スコア,298.5%のCIDErスコア,59.6%の精度を達成している。
論文 参考訳(メタデータ) (2024-12-27T02:05:38Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。