論文の概要: AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception
- arxiv url: http://arxiv.org/abs/2307.13933v2
- Date: Tue, 1 Aug 2023 09:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:58:47.771638
- Title: AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception
- Title(参考訳): AIDE: 補助駆動知覚のためのビジョン駆動型マルチビュー、マルチモーダル、マルチタスクデータセット
- Authors: Dingkang Yang, Shuai Huang, Zhi Xu, Zhenpeng Li, Shunli Wang,
Mingcheng Li, Yuzheng Wang, Yang Liu, Kun Yang, Zhaoyu Chen, Yan Wang, Jing
Liu, Peixuan Zhang, Peng Zhai, Lihua Zhang
- Abstract要約: 本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
- 参考スコア(独自算出の注目度): 26.84439405241999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver distraction has become a significant cause of severe traffic accidents
over the past decade. Despite the growing development of vision-driven driver
monitoring systems, the lack of comprehensive perception datasets restricts
road safety and traffic security. In this paper, we present an AssIstive
Driving pErception dataset (AIDE) that considers context information both
inside and outside the vehicle in naturalistic scenarios. AIDE facilitates
holistic driver monitoring through three distinctive characteristics, including
multi-view settings of driver and scene, multi-modal annotations of face, body,
posture, and gesture, and four pragmatic task designs for driving
understanding. To thoroughly explore AIDE, we provide experimental benchmarks
on three kinds of baseline frameworks via extensive methods. Moreover, two
fusion strategies are introduced to give new insights into learning effective
multi-stream/modal representations. We also systematically investigate the
importance and rationality of the key components in AIDE and benchmarks. The
project link is https://github.com/ydk122024/AIDE.
- Abstract(参考訳): ドライバーの気晴らしは、過去10年間の交通事故の重要な原因となっている。
視覚駆動運転監視システムの開発が進んでいるにもかかわらず、包括的認識データセットの欠如は道路の安全と交通安全を制限している。
本稿では,車内と車外の両方の文脈情報を自然なシナリオで考察する,AIDE(AssIstive Driving pErception dataset)を提案する。
AIDEは、ドライバとシーンのマルチビュー設定、顔、体、姿勢、ジェスチャーのマルチモーダルアノテーション、理解を促進するための4つの実用的タスクデザインなど、三つの特徴を通じて、総合的なドライバー監視を促進する。
aideを徹底的に検討するために、広範囲なメソッドを通じて3種類のベースラインフレームワークに関する実験的なベンチマークを提供する。
さらに、2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
また、AIDEおよびベンチマークにおけるキーコンポーネントの重要性と合理性についても系統的に検討する。
プロジェクトリンクはhttps://github.com/ydk122024/AIDE。
関連論文リスト
- Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Towards Infusing Auxiliary Knowledge for Distracted Driver Detection [11.816566371802802]
引き離された運転は世界中の道路事故の主要な原因である。
シーン内のエンティティ間の意味的関係とドライバのポーズの構造的構成に関する補助的知識を注入することで,運転者検出(DDD)の新たな手法であるKiD3を提案する。
具体的には、シーングラフを統合した統合フレームワークを構築し、ドライバが映像フレーム内の視覚的手がかりと情報を合成し、ドライバの行動の全体像を作成する。
論文 参考訳(メタデータ) (2024-08-29T15:28:42Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - CarDreamer: Open-Source Learning Platform for World Model based Autonomous Driving [25.49856190295859]
世界モデルに基づく強化学習(RL)は,様々な環境の複雑な力学を学習し,予測することで,有望なアプローチとして現れてきた。
高度な運転環境において、そのようなアルゴリズムを訓練し、テストするためのアクセス可能なプラットフォームは存在しない。
私たちは、WMベースの自動運転アルゴリズムの開発に特化して設計された、オープンソースの学習プラットフォームであるCarDreamerを紹介します。
論文 参考訳(メタデータ) (2024-05-15T05:57:20Z) - TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex
Traffic Scenarios [23.831048188389026]
トラヒックビデオにおける多目的追跡は、交通監視の精度を高め、道路安全対策を促進する大きな可能性を秘めている。
トラヒックビデオにおけるマルチオブジェクトトラッキングのための既存のデータセットは、制限されたインスタンスや単一のクラスにフォーカスすることが多い。
複雑なシナリオを持つ多様なトラフィック状況をカバーするために設計された、広範なデータセットであるTrafficMOTを紹介する。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。