論文の概要: Physical Depth-aware Early Accident Anticipation: A Multi-dimensional Visual Feature Fusion Framework
- arxiv url: http://arxiv.org/abs/2502.18496v1
- Date: Wed, 19 Feb 2025 09:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:21:25.123783
- Title: Physical Depth-aware Early Accident Anticipation: A Multi-dimensional Visual Feature Fusion Framework
- Title(参考訳): 身体深度を意識した早期発生予測:多次元視覚特徴融合フレームワーク
- Authors: Hongpu Huang, Wei Zhou, Chen Wang,
- Abstract要約: 本稿では,Depth-Anything という大モデルによって生成される単眼深度特徴を取り入れた物理深度認識学習フレームワークを提案する。
提案手法は, 連続フレームにおける物体間の相互作用関係の解析を通じて, 事故の早期指標を抽出する。
実験結果から,提案手法が最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 6.32591751662313
- License:
- Abstract: Early accident anticipation from dashcam videos is a highly desirable yet challenging task for improving the safety of intelligent vehicles. Existing advanced accident anticipation approaches commonly model the interaction among traffic agents (e.g., vehicles, pedestrians, etc.) in the coarse 2D image space, which may not adequately capture their true positions and interactions. To address this limitation, we propose a physical depth-aware learning framework that incorporates the monocular depth features generated by a large model named Depth-Anything to introduce more fine-grained spatial 3D information. Furthermore, the proposed framework also integrates visual interaction features and visual dynamic features from traffic scenes to provide a more comprehensive perception towards the scenes. Based on these multi-dimensional visual features, the framework captures early indicators of accidents through the analysis of interaction relationships between objects in sequential frames. Additionally, the proposed framework introduces a reconstruction adjacency matrix for key traffic participants that are occluded, mitigating the impact of occluded objects on graph learning and maintaining the spatio-temporal continuity. Experimental results on public datasets show that the proposed framework attains state-of-the-art performance, highlighting the effectiveness of incorporating visual depth features and the superiority of the proposed framework.
- Abstract(参考訳): ダッシュカムビデオからの早期の事故予測は、インテリジェントな車両の安全性を向上させるために非常に望ましいが難しい課題である。
既存の先進的な事故予測アプローチは、粗い2次元画像空間における交通エージェント(例えば、車両、歩行者など)間の相互作用をモデル化する。
この制限に対処するために,Depth-Anythingという大モデルによって生成された単分子深度特徴を組み込んだ物理深度認識学習フレームワークを提案し,よりきめ細かな空間3D情報を導入した。
さらに、提案フレームワークは、交通シーンからの視覚的インタラクション機能と視覚的ダイナミック機能を統合し、シーンに対するより包括的な認識を提供する。
これらの多次元視覚的特徴に基づき、このフレームワークは、シーケンシャルフレーム内のオブジェクト間の相互作用関係の分析を通じて、事故の早期指標をキャプチャする。
さらに,提案フレームワークでは,隠蔽対象がグラフ学習に与える影響を軽減し,時空間連続性を維持するキートラヒック参加者のための再構成隣接行列を提案する。
公開データセットにおける実験結果から,提案フレームワークは最先端の性能を達成し,視覚深度特徴を組み込むことの有効性と,提案フレームワークの優位性を強調した。
関連論文リスト
- Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [9.593020996636932]
音声操作のための大規模部分中心データセットを提案する。
我々は、深度推定と相互作用ポーズ予測のための最先端のいくつかの手法と統合する。
実験により、我々のデータセットは深度知覚と行動可能な相互作用の予測の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-11-27T12:11:23Z) - VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。