論文の概要: Automating Crash Diagram Generation Using Vision-Language Models: A Case Study on Multi-Lane Roundabouts
- arxiv url: http://arxiv.org/abs/2604.15332v1
- Date: Mon, 09 Mar 2026 16:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.835169
- Title: Automating Crash Diagram Generation Using Vision-Language Models: A Case Study on Multi-Lane Roundabouts
- Title(参考訳): 視覚言語モデルを用いたクラッシュダイアグラムの自動生成:マルチレーンラウンドアバウトを事例として
- Authors: Xiao Lu, Hao Zhen, Jidong J. Yang,
- Abstract要約: 本研究では,警察の事故報告から発生する事故図の自動生成に視覚言語モデル(VLM)を用いることを検討した。
GPT-4o、Gemini-1.5-Flash、Janus-4oの3つの人気モデルは79のクラッシュレポートでテストされた。
GPT-4oは10点中6.29点、Gemini-1.5-Flash(5.28点)とJanus-4o(3.64点)で最高パフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 8.260417365735233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crash diagrams are essential tools in transportation safety analysis, yet their manual preparation remains time-consuming and prone to human variability. This study investigates the use of Vision-Language Models (VLMs) to automate crash diagram generation from police crash reports, focusing on multilane roundabouts as a challenging test case. A three-part structured prompt framework was developed to guide model reasoning through interpretation, extraction, and visual synthesis, while a 10-metric evaluation system was designed to assess diagram quality in terms of semantic accuracy, spatial fidelity, and visual clarity. Three popular models, including GPT-4o, Gemini-1.5-Flash, and Janus-4o, were tested on 79 crash reports. GPT-4o achieved the highest average performance (6.29 out of 10), followed by Gemini-1.5-Flash (5.28) and Janus-4o (3.64). The analysis revealed GPT-4o's superior spatial reasoning and alignment between extracted and visualized crash data. These results highlight both the promise and current limitations of VLMs in engineering visualization tasks. The study lays the groundwork for integrating generative AI into crash analysis workflows to improve efficiency, consistency, and interpretability.
- Abstract(参考訳): クラッシュダイアグラムは交通安全分析に欠かせないツールであるが、手作業による準備は依然として時間がかかり、人体の多様性が増す傾向にある。
本研究では,警察の事故報告からクラッシュ図を生成するために視覚言語モデル (VLM) を用いることを検討した。
解釈,抽出,視覚合成を通じてモデル推論を導くための3部構成のプロンプト・フレームワークが開発され,意味的精度,空間的忠実度,視覚的明瞭度の観点から図の質を評価するために10次元評価システムが設計された。
GPT-4o、Gemini-1.5-Flash、Janus-4oの3つの人気モデルは79のクラッシュレポートでテストされた。
GPT-4oは10点中6.29点、Gemini-1.5-Flash(5.28点)とJanus-4o(3.64点)が続いた。
この分析により、GPT-4oのより優れた空間的推論と、抽出された衝突データと可視化された衝突データのアライメントが明らかになった。
これらの結果は、エンジニアリング視覚化タスクにおけるVLMの約束と現在の制限の両方を強調している。
この研究は、生成AIをクラッシュ分析ワークフローに統合し、効率性、一貫性、解釈可能性を改善するための基礎となる。
関連論文リスト
- HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks [73.62053624331227]
Huge-Benchは高レベルUAVビジョンランゲージ・アクションのベンチマークである。
4つの現実世界のデジタルツインシーン、8つのハイレベルタスク、2.56mの軌跡からなる。
プロセスの忠実度、終端精度、安全性を評価するために、プロセス指向および衝突認識メトリクスを導入する。
論文 参考訳(メタデータ) (2026-03-20T10:08:42Z) - A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4233736714284]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらした。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5-assesing each across language, vision- language and image generation。
論文 参考訳(メタデータ) (2026-01-15T15:52:52Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - Investigating Traffic Accident Detection Using Multimodal Large Language Models [3.4123736336071864]
本研究では,交通事故の検出と記述を行うマルチモーダル大規模言語モデル(MLLM)のゼロショット機能について検討する。
その結果、PixtralはF1スコア71%、リコール83%のトップパフォーマーとなった。
これらの結果は、MLLMと高度な視覚分析技術の統合の可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T14:47:33Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Visual Reasoning at Urban Intersections: FineTuning GPT-4o for Traffic Conflict Detection [5.233512464561313]
本研究では,MLLM(Multimodal Large Language Models)を利用した論理的・視覚的推論機能について検討する。
提案手法では,GPT-4oは衝突を検知し,運転者に対して説明や勧告を行うインテリジェントシステムとして機能する。
論文 参考訳(メタデータ) (2025-02-27T22:26:29Z) - Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis [2.1587168792694102]
サイクリストは不均等な怪我のリスクに直面しているが、従来の事故記録は事故の状況を再構築するにはあまりに限られている。
近年の自然主義的な研究は、衝突に寄与する複雑な行動的・インフラ的要因を捉える方法として注目を集めている。
パノラマビデオ(パノラマビデオ、パノラマビデオ)は、ライダーの周囲の360度映像を撮影する。
本研究は, パノラマ画像の物体検出精度を高めるために,(1)元の360度画像を4つの視点のサブイメージに分割・投影することにより,歪みを低減させる,(2)境界連続性とオブジェクトカテゴリ情報を組み込んだ多対象追跡モデルを修正する,という3段階の枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-21T15:37:55Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。