Fugu-MT 論文翻訳(概要): Multi-task Learning with 3D-Aware Regularization

論文の概要: Multi-task Learning with 3D-Aware Regularization

arxiv url: http://arxiv.org/abs/2310.00986v1
Date: Mon, 2 Oct 2023 08:49:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 22:53:42.459949
Title: Multi-task Learning with 3D-Aware Regularization
Title（参考訳）: 3次元認識正規化によるマルチタスク学習
Authors: Wei-Hong Li, Steven McDonagh, Ales Leonardis, Hakan Bilen
Abstract要約: 本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
参考スコア（独自算出の注目度）: 55.97507478913053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural networks have become a standard building block for designing models that can perform multiple dense computer vision tasks such as depth estimation and semantic segmentation thanks to their ability to capture complex correlations in high dimensional feature space across tasks. However, the cross-task correlations that are learned in the unstructured feature space can be extremely noisy and susceptible to overfitting, consequently hurting performance. We propose to address this problem by introducing a structured 3D-aware regularizer which interfaces multiple tasks through the projection of features extracted from an image encoder to a shared 3D feature space and decodes them into their task output space through differentiable rendering. We show that the proposed method is architecture agnostic and can be plugged into various prior multi-task backbones to improve their performance; as we evidence using standard benchmarks NYUv2 and PASCAL-Context.
Abstract（参考訳）: ディープニューラルネットワークは、タスク間の高次元特徴空間における複雑な相関をキャプチャする能力のおかげで、深度推定やセマンティックセグメンテーションといった複数の密集したコンピュータビジョンタスクを実行できるモデルを設計するための標準ビルディングブロックとなっている。しかし、非構造的特徴空間で学習されるクロスタスク相関は非常にうるさく、過度に適合する可能性があり、結果として性能が損なわれる。本稿では,画像エンコーダから抽出した特徴を共有3次元特徴空間に投影することで,複数のタスクを識別可能なレンダリングによりタスク出力空間にデコードする構造付き3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,各種のマルチタスクバックボーンに差し込んで性能を向上できることを示し,標準ベンチマークである NYUv2 と PASCAL-Context を用いて検証した。

関連論文リスト

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文参考訳（メタデータ） (2025-06-04T07:36:33Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。 ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-07-03T16:50:07Z)
A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文参考訳（メタデータ） (2024-04-19T11:24:34Z)
General-Purpose Multimodal Transformer meets Remote Sensing Semantic Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文参考訳（メタデータ） (2023-07-07T04:58:34Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。 i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文参考訳（メタデータ） (2023-04-03T13:41:35Z)
DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2022-06-17T17:59:45Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。