論文の概要: Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.01788v1
- Date: Fri, 3 Mar 2023 08:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:43:43.202281
- Title: Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving
- Title(参考訳): 自律運転における統一認識のための視覚体験型タスクプロンピング
- Authors: Xiwen Liang, Minzhe Niu, Jianhua Han, Hang Xu, Chunjing Xu, Xiaodan
Liang
- Abstract要約: 本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
- 参考スコア(独自算出の注目度): 100.3848723827869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning has emerged as a powerful paradigm to solve a range of
tasks simultaneously with good efficiency in both computation resources and
inference time. However, these algorithms are designed for different tasks
mostly not within the scope of autonomous driving, thus making it hard to
compare multi-task methods in autonomous driving. Aiming to enable the
comprehensive evaluation of present multi-task learning methods in autonomous
driving, we extensively investigate the performance of popular multi-task
methods on the large-scale driving dataset, which covers four common perception
tasks, i.e., object detection, semantic segmentation, drivable area
segmentation, and lane detection. We provide an in-depth analysis of current
multi-task learning methods under different common settings and find out that
the existing methods make progress but there is still a large performance gap
compared with single-task baselines. To alleviate this dilemma in autonomous
driving, we present an effective multi-task framework, VE-Prompt, which
introduces visual exemplars via task-specific prompting to guide the model
toward learning high-quality task-specific representations. Specifically, we
generate visual exemplars based on bounding boxes and color-based markers,
which provide accurate visual appearances of target categories and further
mitigate the performance gap. Furthermore, we bridge transformer-based encoders
and convolutional layers for efficient and accurate unified perception in
autonomous driving. Comprehensive experimental results on the diverse
self-driving dataset BDD100K show that the VE-Prompt improves the multi-task
baseline and further surpasses single-task models.
- Abstract(参考訳): マルチタスク学習は、計算資源と推論時間の両方において、高い効率でタスクを同時に解くための強力なパラダイムとして登場した。
しかし、これらのアルゴリズムは、主に自動運転の範囲内ではなく、異なるタスクのために設計されているため、自動運転におけるマルチタスクメソッドの比較が困難である。
自律運転における現在のマルチタスク学習手法の包括的評価を目的として,大規模運転データセットにおける一般的なマルチタスク手法の性能を広範囲に検討し,対象検出,意味セグメンテーション,ドリブルエリアセグメンテーション,レーン検出の4つの共通認識タスクをカバーする。
我々は,従来のマルチタスク学習手法を異なる共通条件下で詳細に解析し,既存の手法が進行していることを確かめるが,シングルタスクベースラインと比較してまだ大きな性能差がある。
自律運転におけるこのジレンマを緩和するため,我々は,タスク固有のプロンプトを通じて視覚的な例題を導入する効果的なマルチタスクフレームワークve-promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供し、パフォーマンスギャップをさらに緩和する。
さらに,トランスコーダと畳み込み層を橋渡しすることにより,自律運転における効率的かつ高精度な統一知覚を実現する。
多様な自動運転データセットBDD100Kの総合的な実験結果は、VE-Promptがマルチタスクベースラインを改善し、シングルタスクモデルをさらに上回ることを示している。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Multi-task Learning for Real-time Autonomous Driving Leveraging
Task-adaptive Attention Generator [15.94714567272497]
我々は,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転タスクに適応する新しいリアルタイムマルチタスクネットワークを提案する。
マルチタスク学習の課題であるネガティブトランスファーの課題に対処するために,タスク適応型アテンションジェネレータを導入する。
私たちの厳格に最適化されたネットワークは、Cityscapes-3Dデータセットでテストすると、さまざまなベースラインモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-03-06T05:04:40Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - Multi-Task Consistency for Active Learning [18.794331424921946]
不整合に基づくアクティブラーニングは、アノテーションに対する情報的サンプルの選択に有効であることが証明されている。
本稿では,オブジェクト検出とセマンティックセグメンテーションという2つの複合視覚タスクのための,新しいマルチタスク能動学習戦略を提案する。
提案手法は、利用可能なデータのわずか67%を使用して、完全にトレーニングされたパフォーマンスの95%を達成している。
論文 参考訳(メタデータ) (2023-06-21T17:34:31Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。