論文の概要: Multi-task Learning for Real-time Autonomous Driving Leveraging
Task-adaptive Attention Generator
- arxiv url: http://arxiv.org/abs/2403.03468v1
- Date: Wed, 6 Mar 2024 05:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:03:21.327907
- Title: Multi-task Learning for Real-time Autonomous Driving Leveraging
Task-adaptive Attention Generator
- Title(参考訳): タスク適応型アテンションジェネレータを用いたリアルタイム自動運転のためのマルチタスク学習
- Authors: Wonhyeok Choi, Mingyu Shin, Hyukzae Lee, Jaehoon Cho, Jaehyeon Park,
Sunghoon Im
- Abstract要約: 我々は,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転タスクに適応する新しいリアルタイムマルチタスクネットワークを提案する。
マルチタスク学習の課題であるネガティブトランスファーの課題に対処するために,タスク適応型アテンションジェネレータを導入する。
私たちの厳格に最適化されたネットワークは、Cityscapes-3Dデータセットでテストすると、さまざまなベースラインモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 15.94714567272497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-time processing is crucial in autonomous driving systems due to the
imperative of instantaneous decision-making and rapid response. In real-world
scenarios, autonomous vehicles are continuously tasked with interpreting their
surroundings, analyzing intricate sensor data, and making decisions within
split seconds to ensure safety through numerous computer vision tasks. In this
paper, we present a new real-time multi-task network adept at three vital
autonomous driving tasks: monocular 3D object detection, semantic segmentation,
and dense depth estimation. To counter the challenge of negative transfer,
which is the prevalent issue in multi-task learning, we introduce a
task-adaptive attention generator. This generator is designed to automatically
discern interrelations across the three tasks and arrange the task-sharing
pattern, all while leveraging the efficiency of the hard-parameter sharing
approach. To the best of our knowledge, the proposed model is pioneering in its
capability to concurrently handle multiple tasks, notably 3D object detection,
while maintaining real-time processing speeds. Our rigorously optimized
network, when tested on the Cityscapes-3D datasets, consistently outperforms
various baseline models. Moreover, an in-depth ablation study substantiates the
efficacy of the methodologies integrated into our framework.
- Abstract(参考訳): リアルタイム処理は、即時意思決定と迅速な応答が必須であるため、自動運転システムでは不可欠である。
現実のシナリオでは、自動運転車は周囲の状況を継続的に解釈し、複雑なセンサーデータを分析し、多くのコンピュータビジョンタスクを通じて安全性を確保するために分割秒以内に決定を行う。
本稿では,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転課題に適応する新しいリアルタイムマルチタスクネットワークを提案する。
マルチタスク学習における一般的な問題である負の伝達の課題に対処するため,タスク適応型アテンション生成器を提案する。
このジェネレータは、ハードパラメータ共有アプローチの効率を生かしながら、3つのタスク間の相互関係を自動的に識別し、タスク共有パターンをアレンジするように設計されている。
我々の知る限り、提案したモデルは、リアルタイム処理速度を維持しながら、複数のタスク、特に3Dオブジェクト検出を同時に処理する能力において先駆的である。
cityscapes-3dデータセット上でテストされた、厳密に最適化されたネットワークは、一貫してさまざまなベースラインモデルを上回るものです。
さらに,本研究の枠組みに組み込まれた方法論の有効性について検討した。
関連論文リスト
- RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - 3D Object Visibility Prediction in Autonomous Driving [6.802572869909114]
本稿では,新しい属性とその対応するアルゴリズムである3Dオブジェクトの可視性について述べる。
この属性の提案とその計算戦略は、下流タスクの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-03-06T13:07:42Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Multitask Network for Joint Object Detection, Semantic Segmentation and
Human Pose Estimation in Vehicle Occupancy Monitoring [0.0]
マルチタスク検出, ニューラルポーズと推定ネットワーク(DSPM)
我々は,マルチタスク検出,ニューラル・ポーズ・アンド・アセスメント・ネットワーク(DSPM)を提案する。
私たちのアーキテクチャは、単純なエンドツーエンドのトレーニングで、3つのタスクの柔軟な組み合わせを可能にします。
本研究では,公開データセットSVIROとTiCaMの総合評価を行い,優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-03T14:11:18Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Achieving Real-Time LiDAR 3D Object Detection on a Mobile Device [53.323878851563414]
本稿では,強化学習技術を用いたネットワーク拡張とpruning検索を組み込んだコンパイラ対応統一フレームワークを提案する。
具体的には,リカレントニューラルネットワーク(RNN)を用いて,ネットワークの強化とプルーニングの両面での統一的なスキームを自動で提供する。
提案手法は,モバイルデバイス上でのリアルタイム3次元物体検出を実現する。
論文 参考訳(メタデータ) (2020-12-26T19:41:15Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。