論文の概要: Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation
- arxiv url: http://arxiv.org/abs/2304.00971v3
- Date: Thu, 6 Apr 2023 12:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 10:35:53.168304
- Title: Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation
- Title(参考訳): 都市景観における共同2次元3次元マルチタスク学習:3次元検出,セグメンテーション,深さ推定
- Authors: Hanrong Ye, Dan Xu
- Abstract要約: TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
- 参考スコア(独自算出の注目度): 11.608682595506354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This report serves as a supplementary document for TaskPrompter, detailing
its implementation on a new joint 2D-3D multi-task learning benchmark based on
Cityscapes-3D. TaskPrompter presents an innovative multi-task prompting
framework that unifies the learning of (i) task-generic representations, (ii)
task-specific representations, and (iii) cross-task interactions, as opposed to
previous approaches that separate these learning objectives into different
network modules. This unified approach not only reduces the need for meticulous
empirical structure design but also significantly enhances the multi-task
network's representation learning capability, as the entire model capacity is
devoted to optimizing the three objectives simultaneously. TaskPrompter
introduces a new multi-task benchmark based on Cityscapes-3D dataset, which
requires the multi-task model to concurrently generate predictions for
monocular 3D vehicle detection, semantic segmentation, and monocular depth
estimation. These tasks are essential for achieving a joint 2D-3D understanding
of visual scenes, particularly in the development of autonomous driving
systems. On this challenging benchmark, our multi-task model demonstrates
strong performance compared to single-task state-of-the-art methods and
establishes new state-of-the-art results on the challenging 3D detection and
depth estimation tasks.
- Abstract(参考訳): 本報告は、Cityscapes-3Dに基づく新しい2D-3Dマルチタスク学習ベンチマークの実装を詳述したTaskPrompterの補足文書として機能する。
TaskPrompterが学習を統一する革新的なマルチタスクプロンプトフレームワークを発表
(i)タスクジェネリック表現
(ii)タスク固有の表現、及び
(iii)これらの学習目的を異なるネットワークモジュールに分離する従来のアプローチとは対照的に,クロスタスクインタラクション。
この統一されたアプローチは、巧妙な経験的構造設計の必要性を低減させるだけでなく、モデル全体の能力が3つの目的を同時に最適化することに集中するため、マルチタスクネットワークの表現学習能力を大幅に向上させる。
taskprompterはcityscapes-3dデータセットに基づく新しいマルチタスクベンチマークを導入している。これは、モノクロ3d車両検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時生成するマルチタスクモデルを必要とする。
これらのタスクは、特に自律運転システムの開発において、視覚シーンの2D-3Dの共同理解を達成するために不可欠である。
この難解なベンチマークでは,マルチタスクモデルは,単一タスクのステート・オブ・ザ・アート法と比較して強い性能を示し,挑戦的な3次元検出と深さ推定タスクにおいて新たな最先端結果を確立する。
関連論文リスト
- Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Cross-task Attention Mechanism for Dense Multi-task Learning [16.040894192229043]
我々は2次元セマンティックセグメンテーションと2つの幾何学的タスク、すなわち密度深度と表面正規度推定を共同で扱う。
相関誘導型注意と自己注意によってペアワイズなクロスタスク交換を利用する,新しいマルチタスク学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Multi-task learning from fixed-wing UAV images for 2D/3D city modeling [0.0]
マルチタスク学習(Multi-task learning)は、トレーニングデータに制限のある複数のタスクを含むシーン理解のアプローチである。
インフラ開発、交通監視、スマート3D都市、変更検出などの都市管理アプリケーションでは、自動マルチタスクデータ分析が必要である。
本研究では,2D/3D都市モデリングのための固定翼UAV画像を用いたマルチタスク学習手法の性能評価のための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T14:45:42Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。