論文の概要: Multi-Task Learning with Multi-query Transformer for Dense Prediction
- arxiv url: http://arxiv.org/abs/2205.14354v2
- Date: Tue, 31 May 2022 07:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:07:27.501812
- Title: Multi-Task Learning with Multi-query Transformer for Dense Prediction
- Title(参考訳): ディエンス予測のためのマルチクエリ変換器を用いたマルチタスク学習
- Authors: Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, Jing Zhang, Yunhai
Tong, Lefei Zhang, Dacheng Tao
- Abstract要約: Multi-Query Transformer (MQ Transformer)は、複数のタスク間の推論を容易にするために、異なるタスクからの複数のクエリを備えている。
MQTransformerは、共有エンコーダ、クロスタスクアテンション、共有デコーダの3つの重要なコンポーネントで構成されている。
実験の結果,提案手法は有効な手法であり,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 95.40183203362866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous multi-task dense prediction studies developed complex pipelines such
as multi-modal distillations in multiple stages or searching for task
relational contexts for each task. The core insight beyond these methods is to
maximize the mutual effects between each task. Inspired by the recent
query-based Transformers, we propose a simpler pipeline named Multi-Query
Transformer (MQTransformer) that is equipped with multiple queries from
different tasks to facilitate the reasoning among multiple tasks and simplify
the cross task pipeline. Instead of modeling the dense per-pixel context among
different tasks, we seek a task-specific proxy to perform cross-task reasoning
via multiple queries where each query encodes the task-related context. The
MQTransformer is composed of three key components: shared encoder, cross task
attention and shared decoder. We first model each task with a task-relevant and
scale-aware query, and then both the image feature output by the feature
extractor and the task-relevant query feature are fed into the shared encoder,
thus encoding the query feature from the image feature. Secondly, we design a
cross task attention module to reason the dependencies among multiple tasks and
feature scales from two perspectives including different tasks of the same
scale and different scales of the same task. Then we use a shared decoder to
gradually refine the image features with the reasoned query features from
different tasks. Extensive experiment results on two dense prediction datasets
(NYUD-v2 and PASCAL-Context) show that the proposed method is an effective
approach and achieves the state-of-the-art result. Code will be available.
- Abstract(参考訳): 従来のマルチタスク密集予測研究では、複数段階のマルチモーダル蒸留やタスク毎のタスク関係コンテキストの探索といった複雑なパイプラインが開発された。
これらの手法を超えた中核的な洞察は、各タスク間の相互効果を最大化することである。
最近のクエリベースのトランスフォーマーに触発されて、異なるタスクからの複数のクエリーを備え、複数のタスク間の推論を容易にし、クロスタスクパイプラインをシンプルにする、multi-query transformer(mqtransformer)というシンプルなパイプラインを提案しました。
異なるタスク間でピクセル当たりの密接なコンテキストをモデル化するのではなく、タスクに関連したコンテキストをエンコードする複数のクエリを通じてタスク間の推論を行うタスク固有のプロキシを求める。
MQTransformerは、共有エンコーダ、クロスタスクアテンション、共有デコーダの3つの主要なコンポーネントで構成されている。
まず、各タスクをタスク関連およびスケール対応クエリでモデル化し、次に、特徴抽出器によって出力される画像特徴とタスク関連クエリ特徴の両方を共有エンコーダに供給し、画像特徴からクエリ特徴を符号化する。
第2に,複数のタスク間の依存関係を推論するためのクロスタスクアテンションモジュールを,同じスケールの異なるタスクと,同じタスクの異なるスケールを含む2つの視点から設計する。
次に、共有デコーダを使用して、異なるタスクから推論されたクエリ機能を使って、画像機能を徐々に洗練します。
2つの高密度予測データセット (NYUD-v2 と PASCAL-Context) の大規模な実験結果から,提案手法は有効な手法であり,最先端の結果が得られることが示された。
コードは利用可能だ。
関連論文リスト
- DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - TaskExpert: Dynamically Assembling Multi-Task Representations with
Memorial Mixture-of-Experts [11.608682595506354]
最近のモデルでは、タスク固有の機能を1つの共有タスクジェネリック機能から直接デコードすることを検討している。
入力機能が完全に共有され、各タスクデコーダは異なる入力サンプルのデコードパラメータも共有するので、静的な機能デコードプロセスにつながる。
本稿では,複数のタスク・ジェネリックな特徴空間を学習可能なマルチタスク・ミックス・オブ・エキスパート・モデルであるTaskExpertを提案する。
論文 参考訳(メタデータ) (2023-07-28T06:00:57Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Transformer is All You Need: Multimodal Multitask Learning with a
Unified Transformer [24.870827400461682]
本稿では,異なる領域にまたがるタスクを同時に学習するUnified Transformerモデルを提案する。
トランスエンコーダデコーダアーキテクチャに基づいて、UniTモデルは各入力モダリティをエンコーダでエンコーダし、各タスクで予測を行います。
モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。
論文 参考訳(メタデータ) (2021-02-22T04:45:06Z) - CompositeTasking: Understanding Images by Spatial Composition of Tasks [85.95743368954233]
CompositeTaskingは、複数の空間分散タスクの融合である。
提案するネットワークは,画像のペアと画素単位の高密度なタスクのセットを入力として取り,各ピクセルに対するタスク関連予測を行う。
マルチタスクのためのコンパクトなネットワークを提供するだけでなく、タスク編集も可能です。
論文 参考訳(メタデータ) (2020-12-16T15:47:02Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。