Fugu-MT 論文翻訳(概要): Prompt Tuning with Soft Context Sharing for Vision-Language Models

論文の概要: Prompt Tuning with Soft Context Sharing for Vision-Language Models

arxiv url: http://arxiv.org/abs/2208.13474v1
Date: Mon, 29 Aug 2022 10:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 14:03:17.731652
Title: Prompt Tuning with Soft Context Sharing for Vision-Language Models
Title（参考訳）: 視覚言語モデルのためのソフトコンテキスト共有によるプロンプトチューニング
Authors: Kun Ding and Ying Wang and Pengzhang Liu and Qiang Yu and Haojian Zhang and Shiming Xiang and Chunhong Pan
Abstract要約: 本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
参考スコア（独自算出の注目度）: 56.628198024857056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models have recently shown great potential on many computer vision tasks. Meanwhile, prior work demonstrates prompt tuning designed for vision-language models could acquire superior performance on few-shot image recognition compared to linear probe, a strong baseline. In real-world applications, many few-shot tasks are correlated, particularly in a specialized area. However, such information is ignored by previous work. Inspired by the fact that modeling task relationships by multi-task learning can usually boost performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt Tuning) to fine-tune pre-trained vision-language models on multiple target few-shot tasks, simultaneously. Specifically, we design a task-shared meta network to generate prompt vector for each task using pre-defined task name together with a learnable meta prompt as input. As such, the prompt vectors of all tasks will be shared in a soft manner. The parameters of this shared meta network as well as the meta prompt vector are tuned on the joint training set of all target tasks. Extensive experiments on three multi-task few-shot datasets show that SoftCPT outperforms the representative single-task prompt tuning method CoOp [78] by a large margin, implying the effectiveness of multi-task learning in vision-language prompt tuning. The source code and data will be made publicly available.
Abstract（参考訳）: 視覚言語モデルは最近、多くのコンピュータビジョンタスクで大きな可能性を示しています。一方で、視覚言語モデル用に設計されたプロンプトチューニングは、強力なベースラインであるリニアプローブと比較して、少数ショット画像認識において優れたパフォーマンスを得ることができる。実世界のアプリケーションでは、特に専門分野において、多くのショットタスクが相関している。しかし、この情報は以前の作品では無視されている。マルチタスク学習によるタスク関係のモデル化は、通常、性能を高めることができるという事実に着想を得て、複数目標の複数ショットタスクにおいて、事前学習された視覚言語モデルを微調整するためのSoftCPT(Soft Context Sharing for Prompt Tuning)を提案する。具体的には,事前定義されたタスク名と学習可能なメタプロンプトを入力として,タスク毎にプロンプトベクトルを生成するタスク共有メタネットワークを設計する。したがって、すべてのタスクのプロンプトベクトルは、ソフトな方法で共有される。この共有メタネットワークのパラメータとメタプロンプトベクトルは、全ての目標タスクのジョイントトレーニングセットに調整される。 3つのマルチタスク・マルチショット・データセットの大規模な実験により、SoftCPTは代表的なシングルタスク・プロンプト・チューニング法であるCoOp[78]を大きなマージンで上回り、視覚言語・プロンプト・チューニングにおけるマルチタスク学習の有効性を示している。ソースコードとデータは公開される予定だ。

関連論文リスト

Is Visual in-Context Learning for Compositional Medical Tasks within Reach? [68.56630652862293]
本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
論文参考訳（メタデータ） (2025-07-01T15:32:23Z)
InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。 InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。 InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文参考訳（メタデータ） (2025-01-21T15:55:06Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文参考訳（メタデータ） (2023-10-04T17:10:23Z)
TransPrompt v2: A Transferable Prompting Framework for Cross-task Text Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文参考訳（メタデータ） (2023-08-29T04:16:57Z)
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文参考訳（メタデータ） (2023-05-11T17:57:49Z)
Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文参考訳（メタデータ） (2023-03-06T06:04:46Z)
Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。 MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。 20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T18:41:44Z)
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。マルチタスクである視覚言語ジョイントモデルを事前訓練する。その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文参考訳（メタデータ） (2022-05-02T14:53:13Z)
Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文参考訳（メタデータ） (2022-04-16T00:56:12Z)
Grad2Task: Improved Few-shot Text Classification Using Gradients for Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文参考訳（メタデータ） (2022-01-27T15:29:30Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。