論文の概要: DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments
- arxiv url: http://arxiv.org/abs/2412.20042v1
- Date: Sat, 28 Dec 2024 06:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:39.081685
- Title: DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments
- Title(参考訳): DAVE:複雑かつ予測不能な環境における脆弱性のある道路利用者の高表現を伴う異種原子視覚要素データセット
- Authors: Xijun Wang, Pedro Sandoval-Segura, Chengyuan Zhang, Junyun Huang, Tianrui Guan, Ruiqi Xian, Fuxiao Liu, Rohan Chandra, Boqing Gong, Dinesh Manocha,
- Abstract要約: Vulnerable Road Users (VRU) の高表現による認識手法の評価を目的とした新しいデータセット DAVE を提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットである。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
- 参考スコア(独自算出の注目度): 60.69159598130235
- License:
- Abstract: Most existing traffic video datasets including Waymo are structured, focusing predominantly on Western traffic, which hinders global applicability. Specifically, most Asian scenarios are far more complex, involving numerous objects with distinct motions and behaviors. Addressing this gap, we present a new dataset, DAVE, designed for evaluating perception methods with high representation of Vulnerable Road Users (VRUs: e.g. pedestrians, animals, motorbikes, and bicycles) in complex and unpredictable environments. DAVE is a manually annotated dataset encompassing 16 diverse actor categories (spanning animals, humans, vehicles, etc.) and 16 action types (complex and rare cases like cut-ins, zigzag movement, U-turn, etc.), which require high reasoning ability. DAVE densely annotates over 13 million bounding boxes (bboxes) actors with identification, and more than 1.6 million boxes are annotated with both actor identification and action/behavior details. The videos within DAVE are collected based on a broad spectrum of factors, such as weather conditions, the time of day, road scenarios, and traffic density. DAVE can benchmark video tasks like Tracking, Detection, Spatiotemporal Action Localization, Language-Visual Moment retrieval, and Multi-label Video Action Recognition. Given the critical importance of accurately identifying VRUs to prevent accidents and ensure road safety, in DAVE, vulnerable road users constitute 41.13% of instances, compared to 23.71% in Waymo. DAVE provides an invaluable resource for the development of more sensitive and accurate visual perception algorithms in the complex real world. Our experiments show that existing methods suffer degradation in performance when evaluated on DAVE, highlighting its benefit for future video recognition research.
- Abstract(参考訳): Waymoを含む既存のトラフィックビデオデータセットの多くは構造化されており、主に西洋のトラフィックに焦点を当てており、グローバルな適用を妨げている。
具体的には、アジアのほとんどのシナリオははるかに複雑で、異なる動きや振る舞いを持つ多数の物体を含んでいる。
このギャップに対処するために、複雑で予測不可能な環境で、Vulnerable Road Users(VRU: 歩行者、動物、バイク、自転車など)の高表現で認識方法を評価するために設計された新しいデータセットDAVEを提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットで、推論能力が高い。
DAVEは1300万以上のバウンディングボックス(ボックス)アクターに識別を付加し、160万以上のボックスにはアクター識別とアクション/振る舞いの詳細の両方が注釈付けされている。
DAVE内のビデオは、気象条件、日時、道路シナリオ、交通密度など、幅広い要因に基づいて収集される。
DAVEは、トラッキング、検出、時空間のアクションローカライゼーション、言語-視覚モーメント検索、マルチラベルビデオアクション認識などのビデオタスクをベンチマークすることができる。
事故防止と道路安全確保のためにVRUを正確に識別することの重要性から、DAVEでは脆弱な道路利用者が41.13%を占めており、Waymoでは23.71%である。
DAVEは、複雑な現実世界でより敏感で正確な視覚認識アルゴリズムを開発するための貴重なリソースを提供する。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
関連論文リスト
- MCRL4OR: Multimodal Contrastive Representation Learning for Off-Road Environmental Perception [28.394436093801797]
オフロード環境認識のためのマルチモーダルコントラスト表現学習手法 MCRL4OR を提案する。
このアプローチは、視覚画像、移動状態、制御動作を処理するための3つのエンコーダを共同で学習することを目的としている。
実験では、大規模なオフロード駆動データセットを用いてMCRL4ORを事前訓練し、オフロード駆動シナリオにおける様々な下流認識タスクに対する学習されたマルチモーダル表現を採用する。
論文 参考訳(メタデータ) (2025-01-23T08:27:15Z) - ROAD-Waymo: Action Awareness at Scale for Autonomous Driving [17.531603453254434]
ROAD-Waymoは、道路シーンにおけるエージェント、アクション、位置、イベント検出の技術の開発とベンチマークのための広範なデータセットである。
既存のデータセット(および複数の都市を含む)よりもかなり大きく、より困難なものには、198kの注釈付きビデオフレーム、54kのエージェントチューブ、3.9Mのバウンディングボックス、合計12.4Mのラベルがある。
論文 参考訳(メタデータ) (2024-11-03T20:46:50Z) - IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic [35.23523738296173]
大規模なデュアルビュー駆動ビデオデータセットであるIDD-Xを提案する。
697Kのバウンディングボックス、9Kの重要なオブジェクトトラック、ビデオあたり1-12のオブジェクトを持つIDD-Xは、複数の重要なロードオブジェクトに対して包括的なエゴ相対アノテーションを提供する。
また、複数の重要なオブジェクトのローカライゼーションとオブジェクトごとの説明予測を目的とした、カスタムデザインのディープネットワークも導入する。
論文 参考訳(メタデータ) (2024-04-12T16:00:03Z) - DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments [28.23284296418962]
Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。
ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。
動的環境(DOZE)におけるオープンボキャブラリゼロショットオブジェクトナビゲーションのためのデータセットを提案する。
DOZEは18k以上のタスクを持つ10の高忠実な3Dシーンで構成されており、複雑な動的現実世界のシナリオを模倣することを目的としている。
論文 参考訳(メタデータ) (2024-02-29T10:03:57Z) - AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility [125.77396380698639]
AVisTは、視認性の悪いさまざまなシナリオにおける視覚的トラッキングのためのベンチマークである。
AVisTは、80kの注釈付きフレームを持つ120の挑戦的なシーケンスで構成されており、18の多様なシナリオにまたがっている。
我々は、属性間でのトラッキング性能を詳細に分析し、AVisTで17の人気のトラッカーと最近のトラッカーをベンチマークした。
論文 参考訳(メタデータ) (2022-08-14T17:49:37Z) - METEOR: A Massive Dense & Heterogeneous Behavior Dataset for Autonomous
Driving [42.69638782267657]
本稿では、インドにおける非構造化シナリオにおけるトラフィックパターンをキャプチャする、新しい複雑なトラフィックデータセットMETEORを提案する。
METEORは1000分以上のビデオクリップと、エゴ車軌道を持つ200万以上の注釈付きフレームと、周囲の車両や交通機関のための1300万以上のバウンディングボックスで構成されている。
我々は,オブジェクト検出と行動予測アルゴリズムの性能を評価するために,新しいデータセットを用いた。
論文 参考訳(メタデータ) (2021-09-16T01:01:55Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - BoMuDANet: Unsupervised Adaptation for Visual Scene Understanding in
Unstructured Driving Environments [54.22535063244038]
非構造交通環境における視覚的シーン理解のための教師なし適応手法を提案する。
本手法は,車,トラック,二輪車,三輪車,歩行者からなる密集・異種交通を伴う非構造現実シナリオを対象としたものである。
論文 参考訳(メタデータ) (2020-09-22T08:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。