論文の概要: InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding
- arxiv url: http://arxiv.org/abs/2306.04842v1
- Date: Thu, 8 Jun 2023 00:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:04:01.459596
- Title: InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding
- Title(参考訳): InvPT++:ビジュアルシーン理解のための逆ピラミッドマルチタスク変換器
- Authors: Hanrong Ye and Dan Xu
- Abstract要約: マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
- 参考スコア(独自算出の注目度): 11.608682595506354
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-task scene understanding aims to design models that can simultaneously
predict several scene understanding tasks with one versatile model. Previous
studies typically process multi-task features in a more local way, and thus
cannot effectively learn spatially global and cross-task interactions, which
hampers the models' ability to fully leverage the consistency of various tasks
in multi-task learning. To tackle this problem, we propose an Inverted Pyramid
multi-task Transformer, capable of modeling cross-task interaction among
spatial features of different tasks in a global context. Specifically, we first
utilize a transformer encoder to capture task-generic features for all tasks.
And then, we design a transformer decoder to establish spatial and cross-task
interaction globally, and a novel UP-Transformer block is devised to increase
the resolutions of multi-task features gradually and establish cross-task
interaction at different scales. Furthermore, two types of Cross-Scale
Self-Attention modules, i.e., Fusion Attention and Selective Attention, are
proposed to efficiently facilitate cross-task interaction across different
feature scales. An Encoder Feature Aggregation strategy is further introduced
to better model multi-scale information in the decoder. Comprehensive
experiments on several 2D/3D multi-task benchmarks clearly demonstrate our
proposal's effectiveness, establishing significant state-of-the-art
performances.
- Abstract(参考訳): マルチタスクシーン理解は、1つの汎用モデルで複数のシーン理解タスクを同時に予測できるモデルを設計することを目的としている。
これまでの研究では、よりローカルな方法でマルチタスク機能を処理しているため、空間的にグローバルでクロスタスクなインタラクションを効果的に学習できないため、マルチタスク学習におけるさまざまなタスクの一貫性を十分に活用できない。
そこで本稿では,様々なタスクの空間的特徴間のクロスタスクインタラクションをグローバルコンテキストでモデル化できる逆ピラミッド型マルチタスクトランスフォーマを提案する。
具体的には,まずまずトランスフォーマーエンコーダを用いてタスク生成機能をキャプチャする。
そして,グローバルに空間的およびクロスタスクインタラクションを確立するためのトランスフォーマーデコーダを設計し,マルチタスク機能の解像度を徐々に向上し,異なるスケールでクロスタスクインタラクションを確立するために,新しいUP-Transformerブロックを考案した。
さらに,様々な機能尺度間でのクロスタスクインタラクションを効率的に行うために,融合注意と選択的注意という2種類のクロススケール・セルフアテンションモジュールが提案されている。
さらに,デコーダのマルチスケール情報をモデル化するために,エンコーダの特徴集約戦略を導入する。
複数の2d/3dマルチタスクベンチマークにおける包括的実験により,提案手法の有効性を明確に示し,最先端の性能を確立した。
関連論文リスト
- Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Cross-task Attention Mechanism for Dense Multi-task Learning [16.040894192229043]
我々は2次元セマンティックセグメンテーションと2つの幾何学的タスク、すなわち密度深度と表面正規度推定を共同で扱う。
相関誘導型注意と自己注意によってペアワイズなクロスタスク交換を利用する,新しいマルチタスク学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Inverted Pyramid Multi-task Transformer for Dense Scene Understanding [11.608682595506354]
InvPT(Invert-to-end Inverted Pyramid Multi-task Transformer)を提案する。
InvPTは効率の良いUP-Transformerブロックを示し、徐々に高解像度でマルチタスク特徴の相互作用を学習する。
提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
論文 参考訳(メタデータ) (2022-03-15T15:29:08Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Transformer is All You Need: Multimodal Multitask Learning with a
Unified Transformer [24.870827400461682]
本稿では,異なる領域にまたがるタスクを同時に学習するUnified Transformerモデルを提案する。
トランスエンコーダデコーダアーキテクチャに基づいて、UniTモデルは各入力モダリティをエンコーダでエンコーダし、各タスクで予測を行います。
モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。
論文 参考訳(メタデータ) (2021-02-22T04:45:06Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。