論文の概要: A Dynamic Feature Interaction Framework for Multi-task Visual Perception
- arxiv url: http://arxiv.org/abs/2306.05061v1
- Date: Thu, 8 Jun 2023 09:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:16:22.127510
- Title: A Dynamic Feature Interaction Framework for Multi-task Visual Perception
- Title(参考訳): マルチタスク視覚知覚のための動的特徴相互作用フレームワーク
- Authors: Yuling Xi, Hao Chen, Ning Wang, Peng Wang, Yanning Zhang, Chunhua
Shen, Yifan Liu
- Abstract要約: 複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
- 参考スコア(独自算出の注目度): 100.98434079696268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task visual perception has a wide range of applications in scene
understanding such as autonomous driving. In this work, we devise an efficient
unified framework to solve multiple common perception tasks, including instance
segmentation, semantic segmentation, monocular 3D detection, and depth
estimation. Simply sharing the same visual feature representations for these
tasks impairs the performance of tasks, while independent task-specific feature
extractors lead to parameter redundancy and latency. Thus, we design two
feature-merge branches to learn feature basis, which can be useful to, and thus
shared by, multiple perception tasks. Then, each task takes the corresponding
feature basis as the input of the prediction task head to fulfill a specific
task. In particular, one feature merge branch is designed for instance-level
recognition the other for dense predictions. To enhance inter-branch
communication, the instance branch passes pixel-wise spatial information of
each instance to the dense branch using efficient dynamic convolution
weighting. Moreover, a simple but effective dynamic routing mechanism is
proposed to isolate task-specific features and leverage common properties among
tasks. Our proposed framework, termed D2BNet, demonstrates a unique approach to
parameter-efficient predictions for multi-task perception. In addition, as
tasks benefit from co-training with each other, our solution achieves on par
results on partially labeled settings on nuScenes and outperforms previous
works for 3D detection and depth estimation on the Cityscapes dataset with full
supervision.
- Abstract(参考訳): マルチタスク視覚知覚は、自動運転のようなシーン理解に幅広い応用がある。
本研究では,インスタンスセグメンテーション,セマンティクスセグメンテーション,単眼3次元検出,深さ推定など,複数の共通知覚課題を解決するための効率的な統一フレームワークを考案する。
これらのタスクで同じ視覚的特徴表現を共有するだけでタスクのパフォーマンスが損なわれ、独立したタスク固有の特徴抽出器はパラメータの冗長性と遅延につながる。
そこで我々は,複数の知覚タスクにおいて有用かつ共有可能な特徴ベースを学ぶために,2つの特徴メルジブランチを設計した。
そして、各タスクは、対応する特徴ベースを予測タスクヘッドの入力として、特定のタスクを遂行する。
特に、ある特徴マージブランチは、高密度な予測のためのインスタンスレベルの認識のために設計されている。
分岐間通信を強化するために、インスタンスブランチは、効率的な動的畳み込み重み付けを用いて、各インスタンスの画素単位の空間情報を高密度ブランチに渡す。
さらに,タスク固有の特徴を分離し,タスク間の共通特性を活用するための,単純かつ効果的な動的ルーティング機構を提案する。
提案フレームワークであるd2bnetは,マルチタスク知覚のためのパラメータ効率予測にユニークなアプローチを示す。
さらに,タスク同士の協調学習のメリットとして,nuScenesの設定を部分的にラベル付けし,Cityscapesデータセット上での3次元検出と深度推定における従来の作業よりも優れた結果が得られる。
関連論文リスト
- Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。