論文の概要: Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0
- arxiv url: http://arxiv.org/abs/2604.05767v2
- Date: Sun, 12 Apr 2026 15:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.602457
- Title: Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0
- Title(参考訳): Beyond the Beep: BADAS-2.0によるスケーラブルな衝突予測とリアルタイム説明可能性
- Authors: Roni Goldshmidt, Hamish Scott, Lorenzo Niccolini, Hernan Matzner,
- Abstract要約: 衝突予測システムの第2世代であるBADAS-2.0を提示する。
BADAS-1.0上に構築され、大規模なエゴ中心のダッシュカムデータに基づくV-JEPA2の微調整が学術ベースラインとADASシステムの両方より優れていることを示した。
- 参考スコア(独自算出の注目度): 0.5833117322405447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BADAS-2.0, the second generation of our collision anticipation system, building on BADAS-1.0, which showed that fine-tuning V-JEPA2 on large-scale ego-centric dashcam data outperforms both academic baselines and production ADAS systems. BADAS-2.0 advances the state of the art along three axes. (i) Long-tail benchmark and accuracy: We introduce a 10-group long-tail benchmark targeting rare and safety-critical scenarios. To construct it, BADAS-1.0 is used as an active oracle to score millions of unlabeled drives and surface high-risk candidates for annotation. Combined with Nexar's Atlas platform for targeted data collection, this expands the dataset from 40k to 178,500 labeled videos (~2M clips), yielding consistent gains across all subgroups, with the largest improvements on the hardest long-tail cases. (ii) Knowledge distillation to edge: Domain-specific self-supervised pre-training on 2.25M unlabeled driving videos enables distillation into compact models, BADAS-2.0-Flash (86M) and BADAS-2.0-Flash-Lite (22M), achieving 7-12x speedup with near-parity accuracy, enabling real-time edge deployment. (iii) Explainability: BADAS-2.0 produces real-time object-centric attention heatmaps that localize the evidence behind predictions. BADAS-Reason extends this with a vision-language model that consumes the last frame and heatmap to generate driver actions and structured textual reasoning. Inference code and evaluation benchmarks are publicly available.
- Abstract(参考訳): BADAS-1.0をベースとした第2世代の衝突予測システムであるBADAS-2.0を提案する。
BADAS-2.0は3軸に沿って最先端を前進させる。
(i)Long-tailベンチマークと精度:レアかつ安全クリティカルなシナリオをターゲットにした10グループLong-tailベンチマークを導入する。
構築には、BADAS-1.0がアクティブなオラクルとして使われ、数百万の未ラベルドライブをスコアし、アノテーションのハイリスク候補をサーフェスする。
ターゲットとするデータ収集のためのNexarのAtlasプラットフォームと組み合わせることで、データセットを40kから178,500のラベル付きビデオ(約2Mクリップ)に拡張し、すべてのサブグループで一貫したゲインを実現し、最も難しいロングテールケースに対する最大の改善となる。
(ii) エッジへの知識蒸留: 2.25M の未ラベル駆動ビデオ上でのドメイン固有の自己教師付き事前訓練により、コンパクトなモデル、BADAS-2.0-Flash (86M) とBADAS-2.0-Flash-Lite (22M) への蒸留が可能となり、ほぼ平易な精度で7-12倍のスピードアップを実現し、リアルタイムエッジ展開を可能にする。
説明可能性:BADAS-2.0は、予測の背後にある証拠をローカライズするリアルタイムなオブジェクト中心の注目ヒートマップを生成する。
BADAS-Reasonはこれを、最後のフレームとヒートマップを使用してドライバアクションと構造化テキスト推論を生成するビジョン言語モデルで拡張する。
推論コードと評価ベンチマークが公開されている。
関連論文リスト
- SAVeD: A First-Person Social Media Video Dataset for ADAS-equipped vehicle Near-Miss and Crash Event Analyses [0.7874708385247353]
本稿では,ソーシャルメディアコンテンツから収集した大規模ビデオデータセットであるSAVeDを紹介する。
SAVEDは2,119人のファースト・パーソン・ビデオ、様々な場所でのADAS車両の運用、照明条件、気象シナリオを撮影する。
このデータセットには、衝突、回避操作、解脱のためのビデオフレームレベルのアノテーションが含まれており、知覚と意思決定の失敗の両方を分析することができる。
論文 参考訳(メタデータ) (2025-12-19T15:58:52Z) - Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - BADAS: Context Aware Collision Prediction Using Real-World Dashcam Data [3.4891835983047077]
BADASは、Nexarの現実のダッシュカム衝突データセットに基づいてトレーニングされた衝突予測モデルのファミリーである。
主要なベンチマークを再アノテートして、エゴの関与を特定し、コンセンサスアラートタイムラベルを追加し、ネガティブを合成します。
BADASはV-JEPA2のトレーニングを受けたエンドツーエンドを使用し、2つのバリエーションがある。
論文 参考訳(メタデータ) (2025-10-16T16:55:30Z) - KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models [19.625631486595505]
本稿では,知識に富んだ視覚言語フレームワークであるKEPTを紹介する。
連続するフロントビュー駆動フレームから直接エゴ軌道を予測する。
オープンループプロトコル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-03T03:10:42Z) - Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving [59.705635382104454]
本稿では,E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを紹介する。
我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。
論文 参考訳(メタデータ) (2024-06-06T09:12:30Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Large Scale Interactive Motion Forecasting for Autonomous Driving : The
Waymo Open Motion Dataset [84.3946567650148]
10万枚以上のシーンが10Hzで20秒に渡り、私たちの新しいデータセットには1750kmの道路上の570時間以上のユニークなデータが含まれています。
高精度な3d自動ラベルシステムを用いて,道路エージェント毎に高品質な3dバウンディングボックスを生成する。
シングルエージェントとジョイントエージェントの相互作用運動予測モデルの両方を総合的に評価する新しいメトリクスセットを紹介します。
論文 参考訳(メタデータ) (2021-04-20T17:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。