論文の概要: MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning
- arxiv url: http://arxiv.org/abs/2312.08636v1
- Date: Thu, 14 Dec 2023 03:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:12:23.672498
- Title: MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning
- Title(参考訳): mmap : クロスドメインマルチタスク学習のためのマルチモーダルアライメントプロンプト
- Authors: Yi Xin, Junlong Du, Qiang Wang, Ke Yan, Shouhong Ding
- Abstract要約: マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
- 参考スコア(独自算出の注目度): 29.88567810099265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Task Learning (MTL) is designed to train multiple correlated tasks
simultaneously, thereby enhancing the performance of individual tasks.
Typically, a multi-task network structure consists of a shared backbone and
task-specific decoders. However, the complexity of the decoders increases with
the number of tasks. To tackle this challenge, we integrate the decoder-free
vision-language model CLIP, which exhibits robust zero-shot generalization
capability. Recently, parameter-efficient transfer learning methods have been
extensively explored with CLIP for adapting to downstream tasks, where prompt
tuning showcases strong potential. Nevertheless, these methods solely fine-tune
a single modality (text or visual), disrupting the modality structure of CLIP.
In this paper, we first propose Multi-modal Alignment Prompt (MmAP) for CLIP,
which aligns text and visual modalities during fine-tuning process. Building
upon MmAP, we develop an innovative multi-task prompt learning framework. On
the one hand, to maximize the complementarity of tasks with high similarity, we
utilize a gradient-driven task grouping method that partitions tasks into
several disjoint groups and assign a group-shared MmAP to each group. On the
other hand, to preserve the unique characteristics of each task, we assign an
task-specific MmAP to each task. Comprehensive experiments on two large
multi-task learning datasets demonstrate that our method achieves significant
performance improvements compared to full fine-tuning while only utilizing
approximately 0.09% of trainable parameters.
- Abstract(参考訳): マルチタスク学習(MTL)は、複数の関連タスクを同時に訓練し、個々のタスクのパフォーマンスを向上させるように設計されている。
通常、マルチタスクネットワーク構造は共有バックボーンとタスク固有のデコーダで構成される。
しかし、デコーダの複雑さはタスクの数によって増加する。
この課題に取り組むため,我々は,ゼロショット一般化機能を有するデコーダフリーな視覚言語モデルクリップを統合する。
近年,下流タスクに適応するクリップを用いてパラメータ効率のよい転送学習手法が広く研究され,プロンプトチューニングが強い可能性を示している。
にもかかわらず、これらの手法は単一のモダリティ(テキストや視覚)のみを微調整し、CLIPのモダリティ構造を乱す。
本稿では,まずテキストと視覚のモダリティを微調整するクリップ用マルチモーダルアライメントプロンプト(mmap)を提案する。
MmAPを基盤として,革新的なマルチタスク・プロンプト学習フレームワークを開発した。
一方,タスクの相補性を高い類似度で最大化するために,タスクを複数の非結合グループに分割し,グループ共有mmapを各グループに割り当てる勾配駆動タスクグループ化手法を用いる。
一方,各タスクの特徴を保存するために,タスク固有のMmAPを各タスクに割り当てる。
2つの大規模マルチタスク学習データセットに関する包括的実験により、本手法は、トレーニング可能なパラメータの約0.09%のみを活用しながら、完全な微調整に比べて大幅に性能が向上することを示した。
関連論文リスト
- DMTG: One-Shot Differentiable Multi-Task Grouping [32.72240053032646]
MTG(Multi-Task Grouping)による多タスク学習(Multi-Task Learning, MTL)の実現を目指す。
本稿では,2N候補から最高のタスク群を同時に同定し,高次タスク親和性をフル活用したモデル重みを1ショットで同時に訓練することを提案する。
論文 参考訳(メタデータ) (2024-07-06T13:54:00Z) - EMA-Net: Efficient Multitask Affinity Learning for Dense Scene
Predictions [7.01633634930651]
マルチタスク親和性学習ネットワーク(EMA-Net)について紹介する。
EMA-Netは、我々の新しいクロスタスク親和性学習(CTAL)モジュールを用いて、ローカル、グローバル、およびクロスタスクのインタラクションを適応的にキャプチャする。
この結果から,CNNを用いたデコーダに着目したモデルに対して,最先端のMTL性能を実現することができた。
論文 参考訳(メタデータ) (2024-01-20T05:31:47Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Knowledge Assembly: Semi-Supervised Multi-Task Learning from Multiple
Datasets with Disjoint Labels [8.816979799419107]
マルチタスク学習(MTL)は適切な手法であるが、通常はすべてのタスクにラベル付けされたデータセットを必要とする。
MTLフレームワークのタスクのいくつかのみにラベル付けされたデータセットを活用できる手法を提案する。
我々の研究であるKnowledge Assembly(KA)は、ラベルのないデータを半教師付きで活用することで、不連続なデータセットから複数のタスクを学習する。
論文 参考訳(メタデータ) (2023-06-15T04:05:03Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Latent Group Structured Multi-task Learning [2.827177139912107]
マルチタスク学習(MTL)では,様々なタスクを共同で学習することで,鍵となる機械学習アルゴリズムの性能を向上させる。
本稿では,事前情報によって定義されたグループ構造化タスクを奨励するグループ構造化潜在空間マルチタスク学習モデルを提案する。
合成データセットと実世界のデータセットの両方で実験が行われ、シングルタスク学習よりも競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-11-24T05:38:58Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。