論文の概要: Multi-view Phase-aware Pedestrian-Vehicle Incident Reasoning Framework with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.14120v1
- Date: Tue, 18 Nov 2025 04:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.928387
- Title: Multi-view Phase-aware Pedestrian-Vehicle Incident Reasoning Framework with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた多視点位相対応歩行者・車両事故推論フレームワーク
- Authors: Hao Zhen, Yunxiang Yang, Jidong J. Yang,
- Abstract要約: 本稿では,MP-PVIR(Multi-view Phase-aware Pedestrian-Vehicle Incident Reasoning)を紹介する。
MP-PVIRは、多視点ビデオストリームを4段階にわたって構造化された診断レポートに処理する統合フレームワークである。
インシデントを自動的に認知フェーズに分割し、各フェーズ内で同期多視点分析を行い、目的とする予防戦略で因果連鎖に結果を合成することで行動理論を運用する。
- 参考スコア(独自算出の注目度): 6.117371161379208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian-vehicle incidents remain a critical urban safety challenge, with pedestrians accounting for over 20% of global traffic fatalities. Although existing video-based systems can detect when incidents occur, they provide little insight into how these events unfold across the distinct cognitive phases of pedestrian behavior. Recent vision-language models (VLMs) have shown strong potential for video understanding, but they remain limited in that they typically process videos in isolation, without explicit temporal structuring or multi-view integration. This paper introduces Multi-view Phase-aware Pedestrian-Vehicle Incident Reasoning (MP-PVIR), a unified framework that systematically processes multi-view video streams into structured diagnostic reports through four stages: (1) event-triggered multi-view video acquisition, (2) pedestrian behavior phase segmentation, (3) phase-specific multi-view reasoning, and (4) hierarchical synthesis and diagnostic reasoning. The framework operationalizes behavioral theory by automatically segmenting incidents into cognitive phases, performing synchronized multi-view analysis within each phase, and synthesizing results into causal chains with targeted prevention strategies. Particularly, two specialized VLMs underpin the MP-PVIR pipeline: TG-VLM for behavioral phase segmentation (mIoU = 0.4881) and PhaVR-VLM for phase-aware multi-view analysis, achieving a captioning score of 33.063 and up to 64.70% accuracy on question answering. Finally, a designated large language model is used to generate comprehensive reports detailing scene understanding, behavior interpretation, causal reasoning, and prevention recommendations. Evaluation on the Woven Traffic Safety dataset shows that MP-PVIR effectively translates multi-view video data into actionable insights, advancing AI-driven traffic safety analytics for vehicle-infrastructure cooperative systems.
- Abstract(参考訳): 歩行者は世界の交通事故の20%以上を占めている。
既存のビデオベースのシステムは、いつ起きたかを検出することができるが、これらの出来事が歩行者行動の異なる認知段階にどのように広がるかについての洞察はほとんど得られない。
近年の視覚言語モデル(VLM)は、ビデオ理解に強い可能性を示しているが、時間的構造や多視点統合を明示することなく、ビデオの独立処理に限られている。
本稿では,多視点ビデオストリームを構造化診断レポートに体系的に処理する統合フレームワークであるMP-PVIR(Multi-view Phase-aware Pedestrian-Vehicle Incident Reasoning)を提案する。
本フレームワークは,事象を自動的に認知フェーズに分割し,各フェーズ内で同時多視点解析を行い,目的とする予防戦略を用いて因果連鎖に結果を合成することによって行動理論を運用する。
特に、MP-PVIRパイプラインを支える2つの特殊なVLM: 行動相分割のためのTG-VLM(mIoU = 0.4881)と位相対応マルチビュー分析のためのPhaVR-VLM。
最後に、シーン理解、行動解釈、因果推論、予防レコメンデーションを詳述した包括的なレポートを生成するために、指定された大規模言語モデルを用いる。
Woven Traffic Safetyデータセットの評価によると、MP-PVIRは、多視点ビデオデータを実用的な洞察に効果的に変換し、車とインフラの協調システムのためのAI駆動の交通安全分析を推進している。
関連論文リスト
- MsFIN: Multi-scale Feature Interaction Network for Traffic Accident Anticipation [11.143415608240057]
ダッシュカムビデオからの早期事故予測のために,Ms-scale Feature Interaction Network (MsFIN)を提案する。
MsFINには、マルチスケール機能集約、時間的特徴処理、マルチスケール機能ポストフュージョンの3つのレイヤがある。
DADとDADデータセットの実験では、MsFINは単一スケールの特徴抽出による最先端モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-23T16:49:25Z) - Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding [5.830619388189558]
本稿では,総合的なハイウェイシーン理解のためのマルチエージェントフレームワークを提案する。
大規模汎用視覚言語モデル(VLM)は、タスク固有のチェーン・オブ・シークレットを生成するために、ドメイン知識と共にコンテキスト化される。
このフレームワークは、気象分類、舗装湿性評価、交通渋滞検出を同時に扱う。
論文 参考訳(メタデータ) (2025-08-24T03:55:24Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。