論文の概要: Adaptive Multi-Modality Prompt Learning
- arxiv url: http://arxiv.org/abs/2312.00823v1
- Date: Thu, 30 Nov 2023 12:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:35:41.670198
- Title: Adaptive Multi-Modality Prompt Learning
- Title(参考訳): 適応型マルチモダリティ学習
- Authors: Zongqian Wu, Yujing Liu, Mengmeng Zhan, Jialie Shen, Ping Hu, Xiaofeng
Zhu
- Abstract要約: 上記の問題に対処するために,適応型マルチモーダリティ・プロンプト学習を提案する。
画像プロンプト学習は、まず意味のないパッチをマスキングし、学習可能なパラメータとテキストからの情報をパディングすることで、サンプル内およびサンプル外一般化を実現する。
実データを用いた実験結果から,本手法は下流の異なるタスクにおいてSOTA法より優れていることが示された。
- 参考スコア(独自算出の注目度): 21.86784369327551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current prompt learning methods have successfully been designed to
effectively reuse the large pre-trained models without fine-tuning their large
number of parameters, they still have limitations to be addressed, i.e.,
without considering the adverse impact of meaningless patches in every image
and without simultaneously considering in-sample generalization and
out-of-sample generalization. In this paper, we propose an adaptive
multi-modality prompt learning to address the above issues. To do this, we
employ previous text prompt learning and propose a new image prompt learning.
The image prompt learning achieves in-sample and out-of-sample generalization,
by first masking meaningless patches and then padding them with the learnable
parameters and the information from texts. Moreover, each of the prompts
provides auxiliary information to each other, further strengthening these two
kinds of generalization. Experimental results on real datasets demonstrate that
our method outperforms SOTA methods, in terms of different downstream tasks.
- Abstract(参考訳): 現在のプロンプト学習法は、多数のパラメータを微調整することなく、大規模な事前学習モデルを効果的に再利用するように設計されているが、各画像における意味のないパッチの悪影響や、サンプル内一般化やサンプル外一般化を考慮せずに、対処すべき制限がある。
本稿では,上記の問題に対処するために,適応型マルチモダリティプロンプト学習を提案する。
そこで我々は,従来のテキストプロンプト学習を採用し,新しい画像プロンプト学習を提案する。
画像プロンプト学習は、まず意味のないパッチをマスキングし、学習可能なパラメータとテキストからの情報をパディングすることで、サンプル内およびサンプル外一般化を実現する。
さらに、各プロンプトは互いに補助情報を提供し、これら2種類の一般化をさらに強化する。
実データを用いた実験結果から,本手法は下流の異なるタスクにおいてSOTA法より優れていることが示された。
関連論文リスト
- One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [26.74405536334062]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。
提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-18T17:03:25Z) - Continual Learning for Text Classification with Information
Disentanglement Based Regularization [18.258948837964724]
テキスト分類に基づく連続学習のための情報分散に基づく正規化手法を提案する。
大規模ベンチマーク実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-12T14:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。