Fugu-MT 論文翻訳(概要): Prompt Tuning with Soft Context Sharing for Vision-Language Models

論文の概要: Prompt Tuning with Soft Context Sharing for Vision-Language Models

arxiv url: http://arxiv.org/abs/2208.13474v2
Date: Sun, 31 Mar 2024 08:12:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 16:23:34.890266
Title: Prompt Tuning with Soft Context Sharing for Vision-Language Models
Title（参考訳）: 視覚言語モデルのためのソフトコンテキスト共有によるプロンプトチューニング
Authors: Kun Ding, Ying Wang, Pengzhang Liu, Qiang Yu, Haojian Zhang, Shiming Xiang, Chunhong Pan,
Abstract要約: 本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 42.61889428498378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models have recently shown great potential on many tasks in computer vision. Meanwhile, prior work demonstrates prompt tuning designed for vision-language models could acquire superior performance on few-shot image recognition compared to linear probe, a strong baseline. In practice, many few-shot tasks are inherently correlated, particularly within specialized domains. However, such information is overlooked previously. Inspired by the fact that modeling task relationship by multi-task learning can usually boost performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt Tuning) to tune pre-trained vision-language models on multiple target few-shot tasks jointly. Specifically, we design a task-shared meta network to generate prompt context for each task using task name together with a learnable task context as input. The parameters of this meta network as well as the task context are tuned on the joint training set of all tasks. As such, the prompt context of all tasks will be shared in a soft manner. Extensive experiments across four multi-task few-shot datasets covering 44 tasks and 1593 categories demonstrate that SoftCPT significantly outperforms single-task prompt tuning methods, highlighting the effectiveness of multi-task learning for vision-language prompt tuning. Code is available at https://github.com/kding1225/softcpt.
Abstract（参考訳）: ビジョン言語モデルは近年、コンピュータビジョンにおける多くのタスクにおいて大きな可能性を示している。一方、事前の研究では、視覚言語モデル用に設計されたプロンプトチューニングは、強力なベースラインである線形プローブに比べて、数ショット画像認識において優れた性能が得られることを示した。実際には、多くの少数ショットタスクは本質的に相関関係にある。しかし、そのような情報は以前にも見過ごされている。マルチタスク学習によるタスク関係のモデル化は、通常、性能を高めることができるという事実に着想を得て、複数目標の複数ショットタスクに対して事前学習された視覚言語モデルを協調的に調整するための、SoftCPT(Soft Context Sharing for Prompt Tuning)を提案する。具体的には、タスク名と学習可能なタスクコンテキストを入力として、タスク名を用いてタスク毎のプロンプトコンテキストを生成するタスク共有メタネットワークを設計する。このメタネットワークのパラメータとタスクコンテキストは、すべてのタスクの共同トレーニングセットに基づいて調整される。したがって、全てのタスクの迅速なコンテキストは、ソフトな方法で共有される。 44のタスクと1593のカテゴリを対象とする4つのマルチタスク・ショットデータセットに対する大規模な実験により、SoftCPTはシングルタスク・プロンプト・チューニング法を著しく上回り、視覚言語によるプロンプト・チューニングにおけるマルチタスク・ラーニングの有効性を強調した。コードはhttps://github.com/kding1225/softcpt.comから入手できる。

関連論文リスト

Is Visual in-Context Learning for Compositional Medical Tasks within Reach? [68.56630652862293]
本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
論文参考訳（メタデータ） (2025-07-01T15:32:23Z)
InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。 InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。 InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文参考訳（メタデータ） (2025-01-21T15:55:06Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文参考訳（メタデータ） (2023-10-04T17:10:23Z)
TransPrompt v2: A Transferable Prompting Framework for Cross-task Text Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文参考訳（メタデータ） (2023-08-29T04:16:57Z)
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文参考訳（メタデータ） (2023-05-11T17:57:49Z)
Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文参考訳（メタデータ） (2023-03-06T06:04:46Z)
Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。 MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。 20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T18:41:44Z)
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。マルチタスクである視覚言語ジョイントモデルを事前訓練する。その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文参考訳（メタデータ） (2022-05-02T14:53:13Z)
Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文参考訳（メタデータ） (2022-04-16T00:56:12Z)
Grad2Task: Improved Few-shot Text Classification Using Gradients for Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文参考訳（メタデータ） (2022-01-27T15:29:30Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。