論文の概要: AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception
- arxiv url: http://arxiv.org/abs/2307.13933v2
- Date: Tue, 1 Aug 2023 09:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:58:47.771638
- Title: AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception
- Title(参考訳): AIDE: 補助駆動知覚のためのビジョン駆動型マルチビュー、マルチモーダル、マルチタスクデータセット
- Authors: Dingkang Yang, Shuai Huang, Zhi Xu, Zhenpeng Li, Shunli Wang,
Mingcheng Li, Yuzheng Wang, Yang Liu, Kun Yang, Zhaoyu Chen, Yan Wang, Jing
Liu, Peixuan Zhang, Peng Zhai, Lihua Zhang
- Abstract要約: 本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
- 参考スコア(独自算出の注目度): 26.84439405241999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver distraction has become a significant cause of severe traffic accidents
over the past decade. Despite the growing development of vision-driven driver
monitoring systems, the lack of comprehensive perception datasets restricts
road safety and traffic security. In this paper, we present an AssIstive
Driving pErception dataset (AIDE) that considers context information both
inside and outside the vehicle in naturalistic scenarios. AIDE facilitates
holistic driver monitoring through three distinctive characteristics, including
multi-view settings of driver and scene, multi-modal annotations of face, body,
posture, and gesture, and four pragmatic task designs for driving
understanding. To thoroughly explore AIDE, we provide experimental benchmarks
on three kinds of baseline frameworks via extensive methods. Moreover, two
fusion strategies are introduced to give new insights into learning effective
multi-stream/modal representations. We also systematically investigate the
importance and rationality of the key components in AIDE and benchmarks. The
project link is https://github.com/ydk122024/AIDE.
- Abstract(参考訳): ドライバーの気晴らしは、過去10年間の交通事故の重要な原因となっている。
視覚駆動運転監視システムの開発が進んでいるにもかかわらず、包括的認識データセットの欠如は道路の安全と交通安全を制限している。
本稿では,車内と車外の両方の文脈情報を自然なシナリオで考察する,AIDE(AssIstive Driving pErception dataset)を提案する。
AIDEは、ドライバとシーンのマルチビュー設定、顔、体、姿勢、ジェスチャーのマルチモーダルアノテーション、理解を促進するための4つの実用的タスクデザインなど、三つの特徴を通じて、総合的なドライバー監視を促進する。
aideを徹底的に検討するために、広範囲なメソッドを通じて3種類のベースラインフレームワークに関する実験的なベンチマークを提供する。
さらに、2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
また、AIDEおよびベンチマークにおけるキーコンポーネントの重要性と合理性についても系統的に検討する。
プロジェクトリンクはhttps://github.com/ydk122024/AIDE。
関連論文リスト
- CarDreamer: Open-Source Learning Platform for World Model based Autonomous Driving [25.49856190295859]
世界モデルに基づく強化学習(RL)は,様々な環境の複雑な力学を学習し,予測することで,有望なアプローチとして現れてきた。
高度な運転環境において、そのようなアルゴリズムを訓練し、テストするためのアクセス可能なプラットフォームは存在しない。
私たちは、WMベースの自動運転アルゴリズムの開発に特化して設計された、オープンソースの学習プラットフォームであるCarDreamerを紹介します。
論文 参考訳(メタデータ) (2024-05-15T05:57:20Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex
Traffic Scenarios [23.831048188389026]
トラヒックビデオにおける多目的追跡は、交通監視の精度を高め、道路安全対策を促進する大きな可能性を秘めている。
トラヒックビデオにおけるマルチオブジェクトトラッキングのための既存のデータセットは、制限されたインスタンスや単一のクラスにフォーカスすることが多い。
複雑なシナリオを持つ多様なトラフィック状況をカバーするために設計された、広範なデータセットであるTrafficMOTを紹介する。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。