論文の概要: Multitask Network for Joint Object Detection, Semantic Segmentation and
Human Pose Estimation in Vehicle Occupancy Monitoring
- arxiv url: http://arxiv.org/abs/2205.01515v1
- Date: Tue, 3 May 2022 14:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:24:45.661931
- Title: Multitask Network for Joint Object Detection, Semantic Segmentation and
Human Pose Estimation in Vehicle Occupancy Monitoring
- Title(参考訳): 車載監視における複合物体検出・意味セグメンテーション・人間のポーズ推定のためのマルチタスクネットワーク
- Authors: Nikolas Ebert, Patrick Mangat, Oliver Wasenm\"uller
- Abstract要約: マルチタスク検出, ニューラルポーズと推定ネットワーク(DSPM)
我々は,マルチタスク検出,ニューラル・ポーズ・アンド・アセスメント・ネットワーク(DSPM)を提案する。
私たちのアーキテクチャは、単純なエンドツーエンドのトレーニングで、3つのタスクの柔軟な組み合わせを可能にします。
本研究では,公開データセットSVIROとTiCaMの総合評価を行い,優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to ensure safe autonomous driving, precise information about the
conditions in and around the vehicle must be available. Accordingly, the
monitoring of occupants and objects inside the vehicle is crucial. In the
state-of-the-art, single or multiple deep neural networks are used for either
object recognition, semantic segmentation, or human pose estimation. In
contrast, we propose our Multitask Detection, Segmentation and Pose Estimation
Network (MDSP) -- the first multitask network solving all these three tasks
jointly in the area of occupancy monitoring. Due to the shared architecture,
memory and computing costs can be saved while achieving higher accuracy.
Furthermore, our architecture allows a flexible combination of the three
mentioned tasks during a simple end-to-end training. We perform comprehensive
evaluations on the public datasets SVIRO and TiCaM in order to demonstrate the
superior performance.
- Abstract(参考訳): 安全な自動運転を確保するためには、車両内および周辺環境に関する正確な情報が必要である。
そのため、車両内の乗員や物体の監視は極めて重要である。
最先端では、オブジェクト認識、セマンティックセグメンテーション、または人間のポーズ推定に単一または複数のディープニューラルネットワークが使用される。
これとは対照的に,我々は,これらの3つのタスクを,占有監視領域で共同で解決する最初のマルチタスクネットワークであるMDSP(Multitask Detection, Segmentation and Pose Estimation Network)を提案する。
共有アーキテクチャのため、メモリとコンピューティングのコストは高い精度を実現しながら節約できる。
さらに,我々のアーキテクチャでは,簡単なエンドツーエンドトレーニングで3つのタスクを柔軟に組み合わせられる。
本研究では,公開データセットSVIROとTiCaMの総合評価を行い,優れた性能を示す。
関連論文リスト
- A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Multi-task Learning for Real-time Autonomous Driving Leveraging
Task-adaptive Attention Generator [15.94714567272497]
我々は,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転タスクに適応する新しいリアルタイムマルチタスクネットワークを提案する。
マルチタスク学習の課題であるネガティブトランスファーの課題に対処するために,タスク適応型アテンションジェネレータを導入する。
私たちの厳格に最適化されたネットワークは、Cityscapes-3Dデータセットでテストすると、さまざまなベースラインモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-03-06T05:04:40Z) - Simultaneous Clutter Detection and Semantic Segmentation of Moving
Objects for Automotive Radar Data [12.96486891333286]
レーダセンサは、自動運転車の環境認識システムにおいて重要な部分である。
レーダーポイント雲の処理における最初のステップの1つは、しばしば乱れの検出である。
もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。
我々は,RadarScenesデータセットのセマンティックセマンティックセグメンテーションにおいて,我々の設定が極めて効果的であることを示し,既存のネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T11:29:38Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - A Simple and Efficient Multi-task Network for 3D Object Detection and
Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。
提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文 参考訳(メタデータ) (2021-03-06T08:00:26Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。