論文の概要: Multi-task Learning with 3D-Aware Regularization
- arxiv url: http://arxiv.org/abs/2310.00986v1
- Date: Mon, 2 Oct 2023 08:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:53:42.459949
- Title: Multi-task Learning with 3D-Aware Regularization
- Title(参考訳): 3次元認識正規化によるマルチタスク学習
- Authors: Wei-Hong Li, Steven McDonagh, Ales Leonardis, Hakan Bilen
- Abstract要約: 本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 55.97507478913053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have become a standard building block for designing
models that can perform multiple dense computer vision tasks such as depth
estimation and semantic segmentation thanks to their ability to capture complex
correlations in high dimensional feature space across tasks. However, the
cross-task correlations that are learned in the unstructured feature space can
be extremely noisy and susceptible to overfitting, consequently hurting
performance. We propose to address this problem by introducing a structured
3D-aware regularizer which interfaces multiple tasks through the projection of
features extracted from an image encoder to a shared 3D feature space and
decodes them into their task output space through differentiable rendering. We
show that the proposed method is architecture agnostic and can be plugged into
various prior multi-task backbones to improve their performance; as we evidence
using standard benchmarks NYUv2 and PASCAL-Context.
- Abstract(参考訳): ディープニューラルネットワークは、タスク間の高次元特徴空間における複雑な相関をキャプチャする能力のおかげで、深度推定やセマンティックセグメンテーションといった複数の密集したコンピュータビジョンタスクを実行できるモデルを設計するための標準ビルディングブロックとなっている。
しかし、非構造的特徴空間で学習されるクロスタスク相関は非常にうるさく、過度に適合する可能性があり、結果として性能が損なわれる。
本稿では,画像エンコーダから抽出した特徴を共有3次元特徴空間に投影することで,複数のタスクを識別可能なレンダリングによりタスク出力空間にデコードする構造付き3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,各種のマルチタスクバックボーンに差し込んで性能を向上できることを示し,標準ベンチマークである NYUv2 と PASCAL-Context を用いて検証した。
関連論文リスト
- Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - Cross-task Attention Mechanism for Dense Multi-task Learning [16.040894192229043]
我々は2次元セマンティックセグメンテーションと2つの幾何学的タスク、すなわち密度深度と表面正規度推定を共同で扱う。
相関誘導型注意と自己注意によってペアワイズなクロスタスク交換を利用する,新しいマルチタスク学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。