論文の概要: Causal-Entity Reflected Egocentric Traffic Accident Video Synthesis
- arxiv url: http://arxiv.org/abs/2506.23263v1
- Date: Sun, 29 Jun 2025 14:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.795237
- Title: Causal-Entity Reflected Egocentric Traffic Accident Video Synthesis
- Title(参考訳): エゴセントリックな交通事故ビデオ合成における因果関係の考察
- Authors: Lei-lei Li, Jianwu Fang, Junbin Xiao, Shanmin Pang, Hongkai Yu, Chen Lv, Jianru Xue, Tat-Seng Chua,
- Abstract要約: 自動車事故の原因と影響をエゴセントリックに理解することは、自動運転車の安全性にとって不可欠である。
この研究は、事故参加者を正確に特定し、関連する行動を捉えることが重要であると論じている。
本稿では,エゴセントリックな交通事故ビデオを合成するための新しい拡散モデルCausal-VidSynを提案する。
- 参考スコア(独自算出の注目度): 78.14763828578904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentricly comprehending the causes and effects of car accidents is crucial for the safety of self-driving cars, and synthesizing causal-entity reflected accident videos can facilitate the capability test to respond to unaffordable accidents in reality. However, incorporating causal relations as seen in real-world videos into synthetic videos remains challenging. This work argues that precisely identifying the accident participants and capturing their related behaviors are of critical importance. In this regard, we propose a novel diffusion model, Causal-VidSyn, for synthesizing egocentric traffic accident videos. To enable causal entity grounding in video diffusion, Causal-VidSyn leverages the cause descriptions and driver fixations to identify the accident participants and behaviors, facilitated by accident reason answering and gaze-conditioned selection modules. To support Causal-VidSyn, we further construct Drive-Gaze, the largest driver gaze dataset (with 1.54M frames of fixations) in driving accident scenarios. Extensive experiments show that Causal-VidSyn surpasses state-of-the-art video diffusion models in terms of frame quality and causal sensitivity in various tasks, including accident video editing, normal-to-accident video diffusion, and text-to-video generation.
- Abstract(参考訳): 自動車事故の原因と影響をエゴセントリックに理解することは、自動運転車の安全性にとって不可欠であり、因果関係を反映した事故ビデオの合成は、現実に不都合な事故に対処するための能力テストを促進する。
しかし、現実世界のビデオに見られる因果関係を合成ビデオに組み込むことは依然として困難である。
この研究は、事故参加者を正確に特定し、関連する行動を捉えることが重要であると論じている。
本稿では,エゴセントリックな交通事故ビデオを合成するための新しい拡散モデルCausal-VidSynを提案する。
Causal-VidSynは、ビデオ拡散における因果関係の基盤となるために、原因の説明と運転者の修正を活用し、事故原因の回答と視線条件の選択モジュールによって促進される事故参加者と行動を特定する。
Causal-VidSynをサポートするために、事故シナリオを駆動する上で最大のドライバーガゼデータセットであるDrive-Gazeを構築した。
Causal-VidSynは、事故ビデオ編集、通常のビデオ拡散、テキスト・ツー・ビデオ生成など、様々なタスクにおいて、フレーム品質と因果感度の観点から、最先端のビデオ拡散モデルを上回っている。
関連論文リスト
- Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes [26.71659319735027]
Ctrl-Crashはコントロール可能なカークラッシュビデオ生成モデルで、バウンディングボックス、クラッシュタイプ、初期画像フレームなどの信号を条件付けする。
提案手法は,入力の微妙な変化がクラッシュ結果の劇的な変化を引き起こすような,現実的なシナリオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-30T21:04:38Z) - EQ-TAA: Equivariant Traffic Accident Anticipation via Diffusion-Based Accident Video Synthesis [79.25588905883191]
交通現場における交通事故予測(TAA)は, 今後ゼロ死亡率を達成する上で, 課題となる。
本稿では,追加の事故ビデオクリップを合成するAVDモデルを提案する。
論文 参考訳(メタデータ) (2025-03-16T01:56:38Z) - AVD2: Accident Video Diffusion for Accident Video Description [11.221276595088215]
AVD2(Accident Video Diffusion for Accident Video Description)は,事故現場の理解を高める新しいフレームワークである。
このフレームワークは、自然言語の詳細な記述や推論と一致した事故ビデオを生成し、その結果、EMM-AUデータセットが生成される。
EMM-AUデータセットの統合は、自動メトリクスと人的評価の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:22:44Z) - Finding the Trigger: Causal Abductive Reasoning on Video Events [59.188208873301015]
Causal Abductive Reasoning on Video Events (CARVE)は、ビデオ内のイベント間の因果関係を特定する。
本稿では、時間空間と意味空間における映像イベントの関係を調査する因果イベント関係ネットワーク(CERN)を提案する。
論文 参考訳(メタデータ) (2025-01-16T05:39:28Z) - Abductive Ego-View Accident Video Understanding for Safe Driving
Perception [75.60000661664556]
マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。
MM-AUには1,727件の映像が収録されている。
安全運転認識のための誘導型事故映像理解フレームワーク(AdVersa-SD)を提案する。
論文 参考訳(メタデータ) (2024-03-01T10:42:52Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。