論文の概要: Vision Transformer Adapters for Generalizable Multitask Learning
- arxiv url: http://arxiv.org/abs/2308.12372v1
- Date: Wed, 23 Aug 2023 18:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:39:17.372993
- Title: Vision Transformer Adapters for Generalizable Multitask Learning
- Title(参考訳): 汎用マルチタスク学習のための視覚トランスフォーマーアダプタ
- Authors: Deblina Bhattacharjee, Sabine S\"usstrunk, Mathieu Salzmann
- Abstract要約: 一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
- 参考スコア(独自算出の注目度): 61.79647180647685
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce the first multitasking vision transformer adapters that learn
generalizable task affinities which can be applied to novel tasks and domains.
Integrated into an off-the-shelf vision transformer backbone, our adapters can
simultaneously solve multiple dense vision tasks in a parameter-efficient
manner, unlike existing multitasking transformers that are parametrically
expensive. In contrast to concurrent methods, we do not require retraining or
fine-tuning whenever a new task or domain is added. We introduce a task-adapted
attention mechanism within our adapter framework that combines gradient-based
task similarities with attention-based ones. The learned task affinities
generalize to the following settings: zero-shot task transfer, unsupervised
domain adaptation, and generalization without fine-tuning to novel domains. We
demonstrate that our approach outperforms not only the existing convolutional
neural network-based multitasking methods but also the vision transformer-based
ones. Our project page is at \url{https://ivrl.github.io/VTAGML}.
- Abstract(参考訳): 我々は,新しいタスクやドメインに適用可能な汎用的なタスク親和性を学ぶ,最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを紹介する。
既製のvision transformer backboneに組み込まれており、パラメトリックに高価な既存のマルチタスクトランスフォーマーとは異なり、複数の高密度視覚タスクを同時にパラメータ効率良く解くことができます。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
我々は、勾配に基づくタスク類似性と注意に基づくタスクを結合した、タスク適応型アテンション機構をアダプタフレームワークに導入する。
学習されたタスク親和性は、ゼロショットタスク転送、教師なしドメイン適応、新しいドメインに微調整することなく一般化される。
提案手法は,既存の畳み込みニューラルネットワークに基づくマルチタスク手法だけでなく,視覚トランスフォーマーに基づく手法よりも優れていることを示す。
プロジェクトページは \url{https://ivrl.github.io/VTAGML} にある。
関連論文リスト
- Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - AutoTaskFormer: Searching Vision Transformers for Multi-task Learning [35.38583552145653]
視覚変換器は、分類やセグメンテーションのような単一タスクにおいて優れた性能を示している。
既存のマルチタスク・ビジョン・トランスフォーマーは手作りであり、人間の専門知識に大きく依存している。
本稿では,このプロセスを自動化するために,AutoTaskFormerと呼ばれる新しいワンショットニューラルアーキテクチャ検索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-18T06:30:20Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。