論文の概要: A Dynamic Feature Interaction Framework for Multi-task Visual Perception
- arxiv url: http://arxiv.org/abs/2306.05061v1
- Date: Thu, 8 Jun 2023 09:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:16:22.127510
- Title: A Dynamic Feature Interaction Framework for Multi-task Visual Perception
- Title(参考訳): マルチタスク視覚知覚のための動的特徴相互作用フレームワーク
- Authors: Yuling Xi, Hao Chen, Ning Wang, Peng Wang, Yanning Zhang, Chunhua
Shen, Yifan Liu
- Abstract要約: 複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
- 参考スコア(独自算出の注目度): 100.98434079696268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task visual perception has a wide range of applications in scene
understanding such as autonomous driving. In this work, we devise an efficient
unified framework to solve multiple common perception tasks, including instance
segmentation, semantic segmentation, monocular 3D detection, and depth
estimation. Simply sharing the same visual feature representations for these
tasks impairs the performance of tasks, while independent task-specific feature
extractors lead to parameter redundancy and latency. Thus, we design two
feature-merge branches to learn feature basis, which can be useful to, and thus
shared by, multiple perception tasks. Then, each task takes the corresponding
feature basis as the input of the prediction task head to fulfill a specific
task. In particular, one feature merge branch is designed for instance-level
recognition the other for dense predictions. To enhance inter-branch
communication, the instance branch passes pixel-wise spatial information of
each instance to the dense branch using efficient dynamic convolution
weighting. Moreover, a simple but effective dynamic routing mechanism is
proposed to isolate task-specific features and leverage common properties among
tasks. Our proposed framework, termed D2BNet, demonstrates a unique approach to
parameter-efficient predictions for multi-task perception. In addition, as
tasks benefit from co-training with each other, our solution achieves on par
results on partially labeled settings on nuScenes and outperforms previous
works for 3D detection and depth estimation on the Cityscapes dataset with full
supervision.
- Abstract(参考訳): マルチタスク視覚知覚は、自動運転のようなシーン理解に幅広い応用がある。
本研究では,インスタンスセグメンテーション,セマンティクスセグメンテーション,単眼3次元検出,深さ推定など,複数の共通知覚課題を解決するための効率的な統一フレームワークを考案する。
これらのタスクで同じ視覚的特徴表現を共有するだけでタスクのパフォーマンスが損なわれ、独立したタスク固有の特徴抽出器はパラメータの冗長性と遅延につながる。
そこで我々は,複数の知覚タスクにおいて有用かつ共有可能な特徴ベースを学ぶために,2つの特徴メルジブランチを設計した。
そして、各タスクは、対応する特徴ベースを予測タスクヘッドの入力として、特定のタスクを遂行する。
特に、ある特徴マージブランチは、高密度な予測のためのインスタンスレベルの認識のために設計されている。
分岐間通信を強化するために、インスタンスブランチは、効率的な動的畳み込み重み付けを用いて、各インスタンスの画素単位の空間情報を高密度ブランチに渡す。
さらに,タスク固有の特徴を分離し,タスク間の共通特性を活用するための,単純かつ効果的な動的ルーティング機構を提案する。
提案フレームワークであるd2bnetは,マルチタスク知覚のためのパラメータ効率予測にユニークなアプローチを示す。
さらに,タスク同士の協調学習のメリットとして,nuScenesの設定を部分的にラベル付けし,Cityscapesデータセット上での3次元検出と深度推定における従来の作業よりも優れた結果が得られる。
関連論文リスト
- RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - EffiPerception: an Efficient Framework for Various Perception Tasks [6.1522068855729755]
EffiPerceptionは、一般的な学習パターンを探求し、モジュールを増やすためのフレームワークである。
複数の知覚タスクにおいて比較的低いメモリコストで、高い精度のロバスト性を実現することができる。
EffiPerceptionは4つの検出およびセグメンテーションタスクにおいて、精度-メモリ全体のパフォーマンスが大幅に向上する可能性がある。
論文 参考訳(メタデータ) (2024-03-18T23:22:37Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。