Fugu-MT 論文翻訳(概要): Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation

論文の概要: Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation

arxiv url: http://arxiv.org/abs/2304.00971v3
Date: Thu, 6 Apr 2023 12:58:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-07 10:35:53.168304
Title: Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation
Title（参考訳）: 都市景観における共同2次元3次元マルチタスク学習:3次元検出,セグメンテーション,深さ推定
Authors: Hanrong Ye, Dan Xu
Abstract要約: TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。 i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
参考スコア（独自算出の注目度）: 11.608682595506354
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This report serves as a supplementary document for TaskPrompter, detailing its implementation on a new joint 2D-3D multi-task learning benchmark based on Cityscapes-3D. TaskPrompter presents an innovative multi-task prompting framework that unifies the learning of (i) task-generic representations, (ii) task-specific representations, and (iii) cross-task interactions, as opposed to previous approaches that separate these learning objectives into different network modules. This unified approach not only reduces the need for meticulous empirical structure design but also significantly enhances the multi-task network's representation learning capability, as the entire model capacity is devoted to optimizing the three objectives simultaneously. TaskPrompter introduces a new multi-task benchmark based on Cityscapes-3D dataset, which requires the multi-task model to concurrently generate predictions for monocular 3D vehicle detection, semantic segmentation, and monocular depth estimation. These tasks are essential for achieving a joint 2D-3D understanding of visual scenes, particularly in the development of autonomous driving systems. On this challenging benchmark, our multi-task model demonstrates strong performance compared to single-task state-of-the-art methods and establishes new state-of-the-art results on the challenging 3D detection and depth estimation tasks.
Abstract（参考訳）: 本報告は、Cityscapes-3Dに基づく新しい2D-3Dマルチタスク学習ベンチマークの実装を詳述したTaskPrompterの補足文書として機能する。 TaskPrompterが学習を統一する革新的なマルチタスクプロンプトフレームワークを発表 (i)タスクジェネリック表現 (ii)タスク固有の表現、及び (iii)これらの学習目的を異なるネットワークモジュールに分離する従来のアプローチとは対照的に,クロスタスクインタラクション。この統一されたアプローチは、巧妙な経験的構造設計の必要性を低減させるだけでなく、モデル全体の能力が3つの目的を同時に最適化することに集中するため、マルチタスクネットワークの表現学習能力を大幅に向上させる。 taskprompterはcityscapes-3dデータセットに基づく新しいマルチタスクベンチマークを導入している。これは、モノクロ3d車両検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時生成するマルチタスクモデルを必要とする。これらのタスクは、特に自律運転システムの開発において、視覚シーンの2D-3Dの共同理解を達成するために不可欠である。この難解なベンチマークでは,マルチタスクモデルは,単一タスクのステート・オブ・ザ・アート法と比較して強い性能を示し,挑戦的な3次元検出と深さ推定タスクにおいて新たな最先端結果を確立する。

関連論文リスト

HENet++: Hybrid Encoding and Multi-task Learning for 3D Perception and End-to-end Autonomous Driving [47.368036613468455]
本稿では,マルチタスク3次元認識とエンドツーエンド自動運転のためのHENetおよびHENet++フレームワークを提案する。具体的には,短期フレームには大型画像エンコーダ,長期フレームには小型画像エンコーダを用いたハイブリッド画像エンコーダネットワークを提案する。本フレームワークは,高密度かつスパースな特徴を同時に抽出し,異なるタスクに対してより適切な表現を提供し,累積誤差を低減し,計画モジュールにより包括的な情報を提供する。
論文参考訳（メタデータ） (2025-11-10T13:49:59Z)
M2H: Multi-Task Learning with Efficient Window-Based Cross-Task Attention for Monocular Spatial Perception [4.329662126907974]
M2H(Multi-Mono-Hydra)は、単一の単分子画像から意味的セグメンテーションと深度、エッジ、表面正規度を推定するための新しいマルチタスク学習フレームワークである。軽量なViTベースのDINOv2バックボーン上に構築されたM2Hは、リアルタイムデプロイメントに最適化されている。
論文参考訳（メタデータ） (2025-10-20T10:03:31Z)
Multi-modal Multi-task Pre-training for Improved Point Cloud Understanding [4.649202831575798]
我々は,ポイントクラウド理解を高めるためのマルチモーダルマルチタスク事前学習フレームワークMMPTを提案する。 3つの事前学習課題が考案された: トークンレベル再構築(TLR)、ポイントレベル再構築(PLR)、マルチモーダルコントラスト学習(MCL)。 MCLは、3Dポイントクラウドと2Dイメージモダリティの両方からリッチな学習信号を組み立てる。
論文参考訳（メタデータ） (2025-07-23T14:13:14Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。 ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-07-03T16:50:07Z)
WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research [9.945833036861892]
WHU-Syntheticは、マルチタスク学習用に設計された大規模3D合成認識データセットである。我々は,現実のシナリオにおいて実現が困難である特定のアイデアを実現するために,いくつかの新しい設定を実装している。
論文参考訳（メタデータ） (2024-02-29T11:38:44Z)
Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文参考訳（メタデータ） (2023-10-02T08:49:56Z)
LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文参考訳（メタデータ） (2023-07-17T21:22:17Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2022-06-17T17:59:45Z)
Multi-task learning from fixed-wing UAV images for 2D/3D city modeling [0.0]
マルチタスク学習(Multi-task learning)は、トレーニングデータに制限のある複数のタスクを含むシーン理解のアプローチである。インフラ開発、交通監視、スマート3D都市、変更検出などの都市管理アプリケーションでは、自動マルチタスクデータ分析が必要である。本研究では,2D/3D都市モデリングのための固定翼UAV画像を用いたマルチタスク学習手法の性能評価のための共通フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-25T14:45:42Z)
Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文参考訳（メタデータ） (2020-12-22T22:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。