論文の概要: Masked AutoDecoder is Effective Multi-Task Vision Generalist
- arxiv url: http://arxiv.org/abs/2403.07692v2
- Date: Thu, 14 Mar 2024 18:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 10:58:56.882574
- Title: Masked AutoDecoder is Effective Multi-Task Vision Generalist
- Title(参考訳): Masked AutoDecoderは効果的なマルチタスクビジョンジェネラリスト
- Authors: Han Qiu, Jiaxing Huang, Peng Gao, Lewei Lu, Xiaoqin Zhang, Shijian Lu,
- Abstract要約: Masked AutoDecoder (MAD) はマルチタスク・ビジョン・ジェネラリストである。
我々は、コンテキスト依存を捉えるために双方向の注意を喚起する並列デコーディングフレームワークを開発する。
第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
- 参考スコア(独自算出の注目度): 64.43215311406195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of general-purpose models in NLP, recent studies attempt to unify different vision tasks in the same sequence format and employ autoregressive Transformers for sequence prediction. They apply uni-directional attention to capture sequential dependencies and generate task sequences recursively. However, such autoregressive Transformers may not fit vision tasks well, as vision task sequences usually lack the sequential dependencies typically observed in natural languages. In this work, we design Masked AutoDecoder~(MAD), an effective multi-task vision generalist. MAD consists of two core designs. First, we develop a parallel decoding framework that introduces bi-directional attention to capture contextual dependencies comprehensively and decode vision task sequences in parallel. Second, we design a masked sequence modeling approach that learns rich task contexts by masking and reconstructing task sequences. In this way, MAD handles all the tasks by a single network branch and a simple cross-entropy loss with minimal task-specific designs. Extensive experiments demonstrate the great potential of MAD as a new paradigm for unifying various vision tasks. MAD achieves superior performance and inference efficiency compared to autoregressive counterparts while obtaining competitive accuracy with task-specific models. Code will be released.
- Abstract(参考訳): NLPにおける汎用モデルの成功に触発された最近の研究は、異なる視覚タスクを同じシーケンス形式で統一し、シーケンス予測に自己回帰変換器を使用する。
シーケンシャルな依存関係をキャプチャし、タスクシーケンスを再帰的に生成するために、一方向の注意を適用する。
しかし、このような自己回帰変換器は視覚タスクに適さない場合があるため、視覚タスクシーケンスは通常、自然言語で一般的に見られるシーケンシャルな依存関係を欠いている。
本研究では,効率的なマルチタスク・ビジョン・ジェネラリストであるMasked AutoDecoder~(MAD)を設計する。
MADは2つのコア設計で構成されている。
まず,コンテキスト依存を包括的にキャプチャし,視覚タスクシーケンスを並列に復号化するために,双方向の注意を喚起する並列デコーディングフレームワークを開発する。
第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
このように、MADは単一のネットワークブランチで全てのタスクを処理し、タスク固有の最小限の設計で単純なクロスエントロピー損失を発生させる。
広汎な実験は、様々な視覚タスクを統合するための新しいパラダイムとして、MADの大きな可能性を実証している。
MADは、タスク固有のモデルと競合する精度を得ながら、自己回帰よりも優れた性能と推論効率を達成する。
コードはリリースされる。
関連論文リスト
- SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - GLID: Pre-training a Generalist Encoder-Decoder Vision Model [36.242095346942556]
本稿では,様々なダウンストリームコンピュータビジョンタスクをよりよく扱うために,ジェネラリストエンコーダ・デコーダ(GLID)事前学習法を提案する。
GLIDは、訓練済みの汎用エンコーダデコーダを、タスク固有のアーキテクチャ変更を最小限に抑えて、様々な視覚タスクに微調整することができる。
GLIDは、オブジェクト検出、画像セグメンテーション、ポーズ推定、深さ推定など、様々な視覚タスクにおける競合性能を達成する。
論文 参考訳(メタデータ) (2024-04-11T09:43:07Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。