論文の概要: Detecting 32 Pedestrian Attributes for Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2012.02647v1
- Date: Fri, 4 Dec 2020 15:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:45:06.548999
- Title: Detecting 32 Pedestrian Attributes for Autonomous Vehicles
- Title(参考訳): 自動運転車の歩行者属性32
- Authors: Taylor Mordan, Matthieu Cord, Patrick P\'erez and Alexandre Alahi
- Abstract要約: 本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
- 参考スコア(独自算出の注目度): 103.87351701138554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pedestrians are arguably one of the most safety-critical road users to
consider for autonomous vehicles in urban areas. In this paper, we address the
problem of jointly detecting pedestrians and recognizing 32 pedestrian
attributes. These encompass visual appearance and behavior, and also include
the forecasting of road crossing, which is a main safety concern. For this, we
introduce a Multi-Task Learning (MTL) model relying on a composite field
framework, which achieves both goals in an efficient way. Each field spatially
locates pedestrian instances and aggregates attribute predictions over them.
This formulation naturally leverages spatial context, making it well suited to
low resolution scenarios such as autonomous driving. By increasing the number
of attributes jointly learned, we highlight an issue related to the scales of
gradients, which arises in MTL with numerous tasks. We solve it by normalizing
the gradients coming from different objective functions when they join at the
fork in the network architecture during the backward pass, referred to as
fork-normalization. Experimental validation is performed on JAAD, a dataset
providing numerous attributes for pedestrian analysis from autonomous vehicles,
and shows competitive detection and attribute recognition results, as well as a
more stable MTL training.
- Abstract(参考訳): 歩行者は、都市部における自動運転車の安全性を最も重視する道路利用者の1つである。
本稿では,歩行者を共同検出し,歩行者属性を32個認識する問題に対処する。
これらは視覚的外観や行動を含み、道路横断の予測も含むが、これは主要な安全上の懸念である。
そこで本稿では,複合フィールドフレームワークを利用したマルチタスク学習(MTL)モデルを提案する。
各フィールドは、歩行者のインスタンスを空間的に特定し、属性予測を集約する。
この定式化は自然に空間的文脈を活用し、自動運転のような低解像度シナリオに適している。
共同で学習する属性の数を増やすことで、様々なタスクを伴うMLLで発生する勾配のスケールに関する問題を明らかにする。
我々は,ネットワークアーキテクチャにおいて,フォーク正規化(fork-normalization)と呼ばれる後方通過時に,異なる目的関数から生じる勾配を正規化する。
JAADは、自動運転車からの歩行者分析のための多くの属性を提供するデータセットであり、競争力のある検出と属性認識の結果と、より安定したMTLトレーニングを示す。
関連論文リスト
- Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Learning Pedestrian Actions to Ensure Safe Autonomous Driving [12.440017892152417]
自動運転車は、歩行者の短期的かつ即時的な行動をリアルタイムで予測する能力を持つことが重要である。
本研究では,歩行者行動と軌跡予測のために,トランスフォーマーエンコーダデコーダ (TF-ed) アーキテクチャを用いた新しいマルチタスクシーケンスを提案する。
提案手法は,既存のLSTMエンコーダデコーダ (LSTM-ed) アーキテクチャを用いて動作と軌道予測を行う。
論文 参考訳(メタデータ) (2023-05-22T14:03:38Z) - Local and Global Contextual Features Fusion for Pedestrian Intention
Prediction [2.203209457340481]
我々は歩行者と交通状況の両方の視覚的特徴を分析し分析する。
グローバルな文脈を理解するために、位置、動き、環境情報を利用する。
これらのマルチモダリティ機能は、効果的な意図学習のためにインテリジェントに融合されている。
論文 参考訳(メタデータ) (2023-05-01T22:37:31Z) - Unsupervised Adaptation from Repeated Traversals for Autonomous Driving [54.59577283226982]
自動運転車はエンドユーザー環境に一般化し、確実に動作させなければならない。
潜在的な解決策の1つは、エンドユーザの環境から収集されたラベルのないデータを活用することである。
適応過程を監督する信頼性のある信号はターゲット領域に存在しない。
この単純な仮定は、ターゲット領域上の3次元物体検出器の反復的自己学習を可能にする強力な信号を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-27T15:07:55Z) - Multi-Agent Chance-Constrained Stochastic Shortest Path with Application
to Risk-Aware Intelligent Intersection [15.149982804527182]
既存の自動交差点の深刻な課題は、運転環境や人間駆動車からの不確実性の検出と推論にある。
自動運転車(AV)と人間駆動車(HV)のためのリスク対応知的交差点システムを提案する。
論文 参考訳(メタデータ) (2022-10-03T06:49:23Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - PSE-Match: A Viewpoint-free Place Recognition Method with Parallel
Semantic Embedding [9.265785042748158]
PSE-Matchは3次元ポイントクラウドモデルから分離されたセマンティック属性の並列意味解析に基づく視点自由場所認識手法である。
PSE-Matchは、分岐場所学習ネットワークを組み込んで、球面調和領域を通じて異なる意味的属性を並列にキャプチャする。
論文 参考訳(メタデータ) (2021-08-01T22:16:40Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - ROAD: The ROad event Awareness Dataset for Autonomous Driving [16.24547478826027]
ROADは、自動運転車が道路イベントを検出する能力をテストするように設計されている。
22のビデオで構成され、各道路イベントのイメージプレーンの位置を示すバウンディングボックスがアノテートされています。
また、RetinaNetに基づいて、オンライン道路イベント認識のための新しいインクリメンタルアルゴリズムをベースラインとして提供します。
論文 参考訳(メタデータ) (2021-02-23T09:48:56Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。