論文の概要: Read-only Prompt Optimization for Vision-Language Few-shot Learning
- arxiv url: http://arxiv.org/abs/2308.14960v2
- Date: Fri, 10 Nov 2023 03:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:53:31.605747
- Title: Read-only Prompt Optimization for Vision-Language Few-shot Learning
- Title(参考訳): 視覚言語少数ショット学習のための読み取り専用プロンプト最適化
- Authors: Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyung Choi, Sanghyeok Lee,
and Hyunwoo J.Kim
- Abstract要約: 学習可能なプロンプトは、自己アテンションモジュールの内部表現に影響を与える可能性がある。
本稿では,リードオンリーのプロンプト最適化(RPO)を提案する。
実験により, RPOはCLIPとCoCoOpより, ベース・ツー・ニューな一般化とドメインの一般化に優れることが示された。
- 参考スコア(独自算出の注目度): 20.66798356082751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, prompt tuning has proven effective in adapting pre-trained
vision-language models to downstream tasks. These methods aim to adapt the
pre-trained models by introducing learnable prompts while keeping pre-trained
weights frozen. However, learnable prompts can affect the internal
representation within the self-attention module, which may negatively impact
performance variance and generalization, especially in data-deficient settings.
To address these issues, we propose a novel approach, Read-only Prompt
Optimization (RPO). RPO leverages masked attention to prevent the internal
representation shift in the pre-trained model. Further, to facilitate the
optimization of RPO, the read-only prompts are initialized based on special
tokens of the pre-trained model. Our extensive experiments demonstrate that RPO
outperforms CLIP and CoCoOp in base-to-new generalization and domain
generalization while displaying better robustness. Also, the proposed method
achieves better generalization on extremely data-deficient settings, while
improving parameter efficiency and computational overhead. Code is available at
https://github.com/mlvlab/RPO.
- Abstract(参考訳): 近年、事前訓練された視覚言語モデルの下流タスクへの適応において、プロンプトチューニングが効果的であることが証明されている。
これらの方法は、学習可能なプロンプトを導入し、事前訓練された重量を凍結させながら、事前訓練されたモデルに適応することを目的としている。
しかし、学習可能なプロンプトは自己認識モジュールの内部表現に影響を与え、特にデータ不足の環境ではパフォーマンスのばらつきや一般化に悪影響を及ぼす可能性がある。
これらの問題に対処するため,新しい手法,RPO(Read-only Prompt Optimization)を提案する。
RPOは、事前訓練されたモデルの内部表現シフトを防止するためにマスクされた注意を利用する。
さらに、RPOの最適化を容易にするために、事前訓練されたモデルの特別なトークンに基づいて読み取り専用プロンプトを初期化する。
RPOはCLIPやCoCoOpよりも高い性能を示し,高ロバスト性を示しながら,新たな一般化とドメインの一般化を実現している。
また,提案手法は,パラメータ効率と計算オーバーヘッドを改善しつつ,極めてデータ不足な設定を最適化する。
コードはhttps://github.com/mlvlab/rpoで入手できる。
関連論文リスト
- Towards Seamless Adaptation of Pre-trained Models for Visual Place
Recognition [76.66784893699054]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Revisiting the Power of Prompt for Visual Tuning [53.102284329377056]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Parameter-Efficient Long-Tailed Recognition [45.238676193175976]
PELは、事前学習したモデルを20時間以内で、余分なデータを必要とせずに、長い尾の認識タスクに適応できる微調整法である。
PELは、既存のパラメータ効率の良い微調整法の設計を採用することで、少数のタスク固有のパラメータを導入している。
4つの長い尾を持つデータセットに対する実験結果は、PELが従来の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-18T17:50:56Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [26.017809323969285]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。