論文の概要: Interpretable Traffic Responsibility from Dashcam Video via Legal Multi Agent Reasoning
- arxiv url: http://arxiv.org/abs/2603.17930v1
- Date: Wed, 18 Mar 2026 17:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.840574
- Title: Interpretable Traffic Responsibility from Dashcam Video via Legal Multi Agent Reasoning
- Title(参考訳): 法律的マルチエージェント推論によるダッシュカムビデオからの解釈可能な交通応答性
- Authors: Jingchun Yang, Jinchang Zhang,
- Abstract要約: ダシュカムビデオとテキスト記述を中国の交通法規に明示的に整合させるマルチモーダル法定データセットを提案する。
本稿では,(1)テキストによる映像記述を生成する交通事故理解モジュール,(2)責任態様を出力する法的マルチエージェントフレームワーク,(2)ルールセット,および完全な判断報告の2段階について紹介する。
C-TRAIL および MM-AU による実験結果から,本手法は従来のエージェントベースアプローチと同様に,一般および合法の LLM よりも優れていた。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of dashcams has made video evidence in traffic accidents increasingly abundant, yet transforming "what happened in the video" into "who is responsible under which legal provisions" still relies heavily on human experts. Existing ego-view traffic accident studies mainly focus on perception and semantic understanding, while LLM-based legal methods are mostly built on textual case descriptions and rarely incorporate video evidence, leaving a clear gap between the two. We first propose C-TRAIL, a multimodal legal dataset that, under the Chinese traffic regulation system, explicitly aligns dashcam videos and textual descriptions with a closed set of responsibility modes and their corresponding Chinese traffic statutes. On this basis, we introduce a two-stage framework: (1) a traffic accident understanding module that generates textual video descriptions; and (2) a legal multi-agent framework that outputs responsibility modes, statute sets, and complete judgment reports. Experimental results on C-TRAIL and MM-AU show that our method outperforms general and legal LLMs, as well as existing agent-based approaches, while providing a transparent and interpretable legal reasoning process.
- Abstract(参考訳): ダッシュカムの普及により、交通事故のビデオ証拠はますます多くなり、「ビデオで起こったこと」を「法的規定の下で責任を負う者」に変化させた。
既存のエゴビュー交通事故研究は主に知覚と意味理解に焦点が当てられているが、LLMに基づく法的な手法は、主にテキストのケース記述に基づいて構築されており、ビデオ証拠をほとんど含まないため、両者の間に明確なギャップが残されている。
C-TRAILは,中国における交通規制制度の下で,ダシュカムビデオとテキスト記述を,クローズドな責任モードと対応する中国の交通法規で明示的に整列する多モーダルな法定データセットである。
そこで本研究では,(1)テキストによる映像記述を生成する交通事故理解モジュール,(2)責任態様を出力する法的マルチエージェントフレームワーク,(2)規定セット,および完全な判断報告を実現するための2段階の枠組みを提案する。
C-TRAIL および MM-AU による実験結果から,本手法は,透過的かつ解釈可能な法的推論プロセスを提供しながら,従来のエージェントベースアプローチと同様に,一般法および法的な LLM よりも優れていた。
関連論文リスト
- TRANSPORTER: Transferring Visual Semantics from VLM Manifolds [56.749972238005604]
本稿では,ビデオ生成のためのモデルに依存しないアプローチであるTransportERとともに,ロジット・トゥ・ビデオ(L2V)タスクを提案する。
TransporterはVLMの高セマンティック埋め込み空間への最適輸送結合を学習する。
代わりに、ロジットスコアは条件付きビデオ生成のための埋め込み方向を定義する。
論文 参考訳(メタデータ) (2025-11-23T09:12:48Z) - Enhancing LLM-based Autonomous Driving with Modular Traffic Light and Sign Recognition [15.4994260281059]
大規模言語モデル(LLM)は、自律運転における意思決定と計画にますます利用されている。
LLMをベースとした自律走行エージェントを明示的な信号と信号認識で拡張するモジュール冗長層であるTLS-Assistを導入する。
LMDriveを14%,BEVDriverを7%,運転性能を14%向上させた。
論文 参考訳(メタデータ) (2025-11-18T11:52:52Z) - Hierarchical Reasoning with Vision-Language Models for Incident Reports from Dashcam Videos [0.03598453624340711]
本稿では,ダッシュカムビデオからのインシデントレポート生成のための階層的推論フレームワークを提案する。
視覚言語モデルにフレームレベルのキャプション、インシデントフレームの検出、微粒化推論を統合する。
公式の2COOOLオープンリーダーボードでは、29チーム中2位にランクされ、最高のCIDEr-Dスコアを獲得しています。
論文 参考訳(メタデータ) (2025-10-14T06:36:41Z) - BetterCheck: Towards Safeguarding VLMs for Automotive Perception Systems [1.701722696403793]
大規模言語モデル(LLM)は、テキストやビデオなどのマルチモーダルデータを同時に処理するように拡張されている。
制限されていない場合、LLMとビジョン言語モデル(VLM)は複雑な交通状況を記述するのに優れた性能を示す。
VLMは幻覚を起こす傾向があり、これは、ある状況にある交通エージェントを見ていない可能性や、実際には存在しない交通エージェントを見ることを意味する。
論文 参考訳(メタデータ) (2025-07-23T17:32:17Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。