論文の概要: Adaptive Multi-Modality Prompt Learning
- arxiv url: http://arxiv.org/abs/2312.00823v1
- Date: Thu, 30 Nov 2023 12:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:35:41.670198
- Title: Adaptive Multi-Modality Prompt Learning
- Title(参考訳): 適応型マルチモダリティ学習
- Authors: Zongqian Wu, Yujing Liu, Mengmeng Zhan, Jialie Shen, Ping Hu, Xiaofeng
Zhu
- Abstract要約: 上記の問題に対処するために,適応型マルチモーダリティ・プロンプト学習を提案する。
画像プロンプト学習は、まず意味のないパッチをマスキングし、学習可能なパラメータとテキストからの情報をパディングすることで、サンプル内およびサンプル外一般化を実現する。
実データを用いた実験結果から,本手法は下流の異なるタスクにおいてSOTA法より優れていることが示された。
- 参考スコア(独自算出の注目度): 21.86784369327551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current prompt learning methods have successfully been designed to
effectively reuse the large pre-trained models without fine-tuning their large
number of parameters, they still have limitations to be addressed, i.e.,
without considering the adverse impact of meaningless patches in every image
and without simultaneously considering in-sample generalization and
out-of-sample generalization. In this paper, we propose an adaptive
multi-modality prompt learning to address the above issues. To do this, we
employ previous text prompt learning and propose a new image prompt learning.
The image prompt learning achieves in-sample and out-of-sample generalization,
by first masking meaningless patches and then padding them with the learnable
parameters and the information from texts. Moreover, each of the prompts
provides auxiliary information to each other, further strengthening these two
kinds of generalization. Experimental results on real datasets demonstrate that
our method outperforms SOTA methods, in terms of different downstream tasks.
- Abstract(参考訳): 現在のプロンプト学習法は、多数のパラメータを微調整することなく、大規模な事前学習モデルを効果的に再利用するように設計されているが、各画像における意味のないパッチの悪影響や、サンプル内一般化やサンプル外一般化を考慮せずに、対処すべき制限がある。
本稿では,上記の問題に対処するために,適応型マルチモダリティプロンプト学習を提案する。
そこで我々は,従来のテキストプロンプト学習を採用し,新しい画像プロンプト学習を提案する。
画像プロンプト学習は、まず意味のないパッチをマスキングし、学習可能なパラメータとテキストからの情報をパディングすることで、サンプル内およびサンプル外一般化を実現する。
さらに、各プロンプトは互いに補助情報を提供し、これら2種類の一般化をさらに強化する。
実データを用いた実験結果から,本手法は下流の異なるタスクにおいてSOTA法より優れていることが示された。
関連論文リスト
- MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。
提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-18T17:03:25Z) - Continual Learning for Text Classification with Information
Disentanglement Based Regularization [18.258948837964724]
テキスト分類に基づく連続学習のための情報分散に基づく正規化手法を提案する。
大規模ベンチマーク実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-12T14:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。