論文の概要: InfraParis: A multi-modal and multi-task autonomous driving dataset
- arxiv url: http://arxiv.org/abs/2309.15751v2
- Date: Mon, 6 Nov 2023 10:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:51:58.905775
- Title: InfraParis: A multi-modal and multi-task autonomous driving dataset
- Title(参考訳): InfraParis: マルチモーダルとマルチタスクの自動運転データセット
- Authors: Gianni Franchi, Marwane Hariat, Xuanlong Yu, Nacim Belkhir, Antoine
Manzanera and David Filliat
- Abstract要約: 我々は、RGB、深さ、赤外線という3つのモードで複数のタスクをサポートするInfraParisという新しいデータセットを紹介した。
本研究では,意味的セグメンテーション,オブジェクト検出,深さ推定といったタスクのモデルを含む,最先端のベースライン技術の評価を行う。
- 参考スコア(独自算出の注目度): 4.6740600790529365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deep neural networks (DNNs) for autonomous driving computer vision
are typically trained on specific datasets that only involve a single type of
data and urban scenes. Consequently, these models struggle to handle new
objects, noise, nighttime conditions, and diverse scenarios, which is essential
for safety-critical applications. Despite ongoing efforts to enhance the
resilience of computer vision DNNs, progress has been sluggish, partly due to
the absence of benchmarks featuring multiple modalities. We introduce a novel
and versatile dataset named InfraParis that supports multiple tasks across
three modalities: RGB, depth, and infrared. We assess various state-of-the-art
baseline techniques, encompassing models for the tasks of semantic
segmentation, object detection, and depth estimation. More visualizations and
the download link for InfraParis are available at
\href{https://ensta-u2is.github.io/infraParis/}{https://ensta-u2is.github.io/infraParis/}.
- Abstract(参考訳): 現在の自動運転コンピュータビジョンのためのディープニューラルネットワーク(dnn)は、通常、1種類のデータと都市シーンのみを含む特定のデータセットで訓練される。
結果として、これらのモデルは、新しいオブジェクト、ノイズ、夜間条件、および様々なシナリオを扱うのに苦労する。
コンピュータビジョンdnnの回復力を高める努力を続けているが、複数のモダリティを特徴とするベンチマークが欠如していることもあって、進歩は鈍化している。
本稿では,rgb,奥行き,赤外線の3つのモードにまたがる複数のタスクをサポートするinfraparisという,新しい汎用データセットを紹介する。
セマンティクスセグメンテーション,オブジェクト検出,深さ推定といったタスクのためのモデルを含む,最先端のベースライン技術を評価する。
さらなる視覚化とInfraParisのダウンロードリンクは、 \href{https://ensta-u2is.github.io/infraParis/}{https://ensta-u2is.github.io/infraParis/}で公開されている。
関連論文リスト
- SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception [22.114089372056238]
我々は、SEVD、第一種マルチビューエゴ、固定認識合成イベントベースデータセットを提案する。
SEVDは、都市、郊外、田園部、ハイウェイのシーンに、様々な種類の物体がある。
本研究では,最新のイベントベース (RED, RVT) とフレームベース (YOLOv8) を用いて,トラフィック検出タスクのデータセットを評価する。
論文 参考訳(メタデータ) (2024-04-12T20:40:12Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - IDD-3D: Indian Driving Dataset for 3D Unstructured Road Scenes [79.18349050238413]
デプロイ可能なディープラーニングアーキテクチャの準備とトレーニングには、さまざまなトラフィックシナリオに適したモデルが必要である。
インドなどいくつかの発展途上国で見られる非構造的で複雑な運転レイアウトは、これらのモデルに挑戦している。
我々は、複数のカメラと12kの注釈付き駆動LiDARフレームを備えたLiDARセンサーのマルチモーダルデータからなる新しいデータセットIDD-3Dを構築した。
論文 参考訳(メタデータ) (2022-10-23T23:03:17Z) - DOLPHINS: Dataset for Collaborative Perception enabled Harmonious and
Interconnected Self-driving [19.66714697653504]
V2Xネットワークは、自動運転における協調的な認識を可能にしている。
データセットの欠如は、協調認識アルゴリズムの開発を著しく妨げている。
DOLPHINS: cOllaborative Perception を実現するためのデータセットである Harmonious と Inter connected Self-driving をリリースする。
論文 参考訳(メタデータ) (2022-07-15T17:07:07Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - A Wireless-Vision Dataset for Privacy Preserving Human Activity
Recognition [53.41825941088989]
アクティビティ認識の堅牢性を改善するため,WiNN(WiFi-based and video-based neural network)が提案されている。
以上の結果から,WiViデータセットは一次需要を満足し,パイプライン内の3つのブランチはすべて,80%以上のアクティビティ認識精度を維持していることがわかった。
論文 参考訳(メタデータ) (2022-05-24T10:49:11Z) - A Simple and Efficient Multi-task Network for 3D Object Detection and
Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。
提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文 参考訳(メタデータ) (2021-03-06T08:00:26Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。