論文の概要: Multi-Task Learning with Multi-Query Transformer for Dense Prediction
- arxiv url: http://arxiv.org/abs/2205.14354v4
- Date: Fri, 7 Apr 2023 17:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:30:57.891500
- Title: Multi-Task Learning with Multi-Query Transformer for Dense Prediction
- Title(参考訳): ディエンス予測のためのマルチクエリ変換器を用いたマルチタスク学習
- Authors: Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, Lefei Zhang
- Abstract要約: 本稿では,複数のタスク間の推論を容易にするために,Multi-Query Transformer (MQ Transformer) という単純なパイプラインを提案する。
異なるタスク間での高密度なピクセル単位のコンテキストをモデル化する代わりに、タスク固有のプロキシを使ってクロスタスク推論を行う。
実験の結果,提案手法は有効な手法であり,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 38.476408482050815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous multi-task dense prediction studies developed complex pipelines such
as multi-modal distillations in multiple stages or searching for task
relational contexts for each task. The core insight beyond these methods is to
maximize the mutual effects of each task. Inspired by the recent query-based
Transformers, we propose a simple pipeline named Multi-Query Transformer
(MQTransformer) that is equipped with multiple queries from different tasks to
facilitate the reasoning among multiple tasks and simplify the cross-task
interaction pipeline. Instead of modeling the dense per-pixel context among
different tasks, we seek a task-specific proxy to perform cross-task reasoning
via multiple queries where each query encodes the task-related context. The
MQTransformer is composed of three key components: shared encoder, cross-task
query attention module and shared decoder. We first model each task with a
task-relevant query. Then both the task-specific feature output by the feature
extractor and the task-relevant query are fed into the shared encoder, thus
encoding the task-relevant query from the task-specific feature. Secondly, we
design a cross-task query attention module to reason the dependencies among
multiple task-relevant queries; this enables the module to only focus on the
query-level interaction. Finally, we use a shared decoder to gradually refine
the image features with the reasoned query features from different tasks.
Extensive experiment results on two dense prediction datasets (NYUD-v2 and
PASCAL-Context) show that the proposed method is an effective approach and
achieves state-of-the-art results. Code and models are available at
https://github.com/yangyangxu0/MQTransformer.
- Abstract(参考訳): 従来のマルチタスク密集予測研究では、複数段階のマルチモーダル蒸留やタスク毎のタスク関係コンテキストの探索といった複雑なパイプラインが開発された。
これらの方法を超えた核となる洞察は、各タスクの相互効果を最大化することである。
最近のクエリベースのTransformerに触発されて,複数のタスク間の推論を容易にし,タスク間のインタラクションパイプラインを簡素化する,Multi-Query Transformer(MQ Transformer)というシンプルなパイプラインを提案する。
異なるタスク間でピクセル当たりの密接なコンテキストをモデル化するのではなく、タスクに関連したコンテキストをエンコードする複数のクエリを通じてタスク間の推論を行うタスク固有のプロキシを求める。
MQTransformerは、共有エンコーダ、クロスタスククエリアテンションモジュール、共有デコーダの3つの主要なコンポーネントで構成されている。
まず、タスク関連クエリで各タスクをモデル化する。
そして、特徴抽出器が出力するタスク特化特徴とタスク関連クエリの両方を共有エンコーダに入力し、タスク特化特徴からタスク関連クエリを符号化する。
次に、複数のタスク関連クエリ間の依存関係を推論するために、クロスタスククエリアテンションモジュールを設計する。
最後に、共有デコーダを使用して、異なるタスクから推論されたクエリ機能を使って、画像機能を徐々に洗練します。
2つの高密度予測データセット (NYUD-v2 と PASCAL-Context) の大規模な実験結果から,提案手法は有効な手法であり,最先端の結果が得られることが示された。
コードとモデルはhttps://github.com/yangyangxu0/MQTransformer.comで入手できる。
関連論文リスト
- DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - TaskExpert: Dynamically Assembling Multi-Task Representations with
Memorial Mixture-of-Experts [11.608682595506354]
最近のモデルでは、タスク固有の機能を1つの共有タスクジェネリック機能から直接デコードすることを検討している。
入力機能が完全に共有され、各タスクデコーダは異なる入力サンプルのデコードパラメータも共有するので、静的な機能デコードプロセスにつながる。
本稿では,複数のタスク・ジェネリックな特徴空間を学習可能なマルチタスク・ミックス・オブ・エキスパート・モデルであるTaskExpertを提案する。
論文 参考訳(メタデータ) (2023-07-28T06:00:57Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Transformer is All You Need: Multimodal Multitask Learning with a
Unified Transformer [24.870827400461682]
本稿では,異なる領域にまたがるタスクを同時に学習するUnified Transformerモデルを提案する。
トランスエンコーダデコーダアーキテクチャに基づいて、UniTモデルは各入力モダリティをエンコーダでエンコーダし、各タスクで予測を行います。
モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。
論文 参考訳(メタデータ) (2021-02-22T04:45:06Z) - CompositeTasking: Understanding Images by Spatial Composition of Tasks [85.95743368954233]
CompositeTaskingは、複数の空間分散タスクの融合である。
提案するネットワークは,画像のペアと画素単位の高密度なタスクのセットを入力として取り,各ピクセルに対するタスク関連予測を行う。
マルチタスクのためのコンパクトなネットワークを提供するだけでなく、タスク編集も可能です。
論文 参考訳(メタデータ) (2020-12-16T15:47:02Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。