Fugu-MT 論文翻訳(概要): Multi-Stage VLM Pipeline for Zero-Shot Traffic Accident Understanding

論文の概要: Multi-Stage VLM Pipeline for Zero-Shot Traffic Accident Understanding

arxiv url: http://arxiv.org/abs/2605.29325v1
Date: Thu, 28 May 2026 04:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.65455
Title: Multi-Stage VLM Pipeline for Zero-Shot Traffic Accident Understanding
Title（参考訳）: ゼロショット交通事故理解のためのマルチステージVLMパイプライン
Authors: Fumiya Tatematsu, Fumihiko Takahashi,
Abstract要約: CVPR 2026 AUTOPILOT Workshopにおいて,アクシデント問題に対する第1位ソリューションについて紹介する。この課題は、CCTVの映像から事故のタイミング、衝突セントロイド、衝突タイプのゼロショット予測を求めるものである。 235BのMixture-of-Experts兄弟で2回同じパイプラインを走らせ、2つの出力を9:1にブレンドし、最後に予測された各ポイントを最寄りの車両検出にスナップします。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the 1st-place solution to the ACCIDENT challenge at the CVPR 2026 AUTOPILOT Workshop, which asks for zero-shot prediction of accident timing, impact centroid, and collision type from CCTV footage. On a frozen Qwen3-VL-32B-Instruct checkpoint we build a three-stage pipeline (full-video joint prediction, time refinement, and single-frame grounding of the impact centroid), run the same pipeline a second time on a 235B Mixture-of-Experts sibling, blend the two outputs 9:1, and finally snap each predicted point onto the nearest vehicle detection. The final system reaches Public LB 0.55469 / Private LB 0.57080, roughly +0.21 over the strongest host baseline (Molmo-7B, 0.358) and wins the challenge. We ablate each component, report the negative results that shaped the final design, and release the code at https://github.com/fuumin621/cvpr2026-accident-1st-place-solution.
Abstract（参考訳）: CVPR 2026 AUTOPILOT Workshopでは,事故発生時刻のゼロショット予測,衝突遠心分離型,衝突型をCCTV映像から求めている。凍結したQwen3-VL-32B-インストラクションチェックポイントでは、3段階のパイプライン(フルビデオのジョイント予測、タイムリファインメント、衝突セントロイドのシングルフレームグラウンド)を構築し、235BのMixture-of-Experts兄弟で2回同じパイプラインを走らせ、2つの出力を9:1にブレンドし、最後に予測された各ポイントを最寄りの車両検出にスナップします。最終システムはパブリックLB 0.55469 / Private LB 0.57080に到達し、最強のホストベースライン(Molmo-7B, 0.358)の約0.21で勝利した。それぞれのコンポーネントをアブレーションし、最終設計を形作ったネガティブな結果を報告し、https://github.com/fuumin621/cvpr2026-accident-1st-place-solutionでコードをリリースします。

関連論文リスト

Two-Pass Zero-Shot Temporal-Spatial Grounding of Rare Traffic Events in Surveillance Video [0.0]
実際のCCTV映像における地上交通事故は、ラベル付き事故映像のトレーニングがしばしば禁止される希少な問題である。我々は、凍結した視覚言語モデルからこのジョイント出力を引き出す、微調整のパイプラインを提案する。
論文参考訳（メタデータ） (2026-05-02T16:05:44Z)
A Modular Zero-Shot Pipeline for Accident Detection, Localization, and Classification in Traffic Surveillance Video [0.0]
ACCIDENT @ CVPR 2026 チャレンジのために開発されたゼロショットパイプラインについて述べる。この課題は、実世界のトレーニングデータをラベル付けすることなく、監視ビデオでいつ、どこで、どのような交通事故が発生するかを予測する必要がある。我々の方法は問題を3つの独立したモジュールに分離する。
論文参考訳（メタデータ） (2026-04-05T05:18:19Z)
Collision-Aware Vision-Language Learning for End-to-End Driving with Multimodal Infraction Datasets [7.932761533792761]
高屈折率は、エンド・ツー・エンド(E2E)自動運転の主要なボトルネックである。 VLAAD(Video-Language-Augmented Anomaly Detector)を開発した。 VLAADは衝突対応のプラグインモジュールで、既存のE2E駆動モデルにシームレスに統合できる。
論文参考訳（メタデータ） (2026-03-26T22:32:52Z)
LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。最初のJEPAであるLeModelWorldを紹介します。数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文参考訳（メタデータ） (2026-03-13T19:48:14Z)
Collision Avoidance Detour for Multi-Agent Trajectory Forecasting [8.680676599607123]
2023年のオープンデータセットチャレンジ - Sim Agentsで3位を獲得したCollision Avoidance Detour(CAD)を紹介します。動作予測因子化の要件を満たすため,有効な対象を,自律走行車(ADV),ワールドトラック・トゥ・予測,ワールドトラックの3つの排他的セットに分割する。
論文参考訳（メタデータ） (2023-06-20T16:05:24Z)
CabiNet: Scaling Neural Collision Detection for Object Rearrangement with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。 CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文参考訳（メタデータ） (2023-04-18T21:09:55Z)
DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文参考訳（メタデータ） (2023-04-03T17:37:00Z)
Global Feature Aggregation for Accident Anticipation [8.57961305383434]
本稿では,フレーム内の全てのオブジェクトの特徴の重み付け和を計算することで,各オブジェクトの特徴を洗練させる新しい特徴集約(FA)ブロックを提案する。 FAブロックとLong Short Term Memory (LSTM) ネットワークを併用して,ビデオシーケンスにおける事故の予測を行う。
論文参考訳（メタデータ） (2020-06-16T06:17:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。