論文の概要: Language Models as Black-Box Optimizers for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.05950v1
- Date: Tue, 12 Sep 2023 04:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:34:32.548936
- Title: Language Models as Black-Box Optimizers for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのブラックボックスオプティマイザとしての言語モデル
- Authors: Samuel Yu and Shihong Liu and Zhiqiu Lin and Deepak Pathak and Deva
Ramanan
- Abstract要約: 本研究では,視覚言語モデル(VLM)を自然言語のプロンプトを用いて微調整する手法を開発した。
挑戦的な1ショットの学習設定では、私たちの単純なアプローチは、平均1.5%のホワイトボックス連続プロンプトメソッドであるCoOpを超越しています。
当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れており,反復APEのような他のブラックボックスメソッドよりも効率的です。
- 参考スコア(独自算出の注目度): 74.94205565784623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) pre-trained on web-scale datasets have
demonstrated remarkable capabilities across a variety of vision and multimodal
tasks. Currently, fine-tuning methods for VLMs mainly operate in a white-box
setting, requiring access to model parameters for backpropagation. However,
many VLMs rely on proprietary data and are not open-source, which restricts the
use of white-box approaches for fine-tuning. Given that popular private large
language models (LLMs) like ChatGPT still offer a language-based user
interface, we aim to develop a novel fine-tuning approach for VLMs through
natural language prompts, thereby avoiding the need to access model parameters,
feature embeddings, or output logits. In this setup, we propose employing
chat-based LLMs as black-box optimizers to search for the best text prompt on
the illustrative task of few-shot image classification using CLIP.
Specifically, we adopt an automatic "hill-climbing" procedure that converges on
an effective prompt by evaluating the accuracy of current prompts and asking
LLMs to refine them based on textual feedback, all within a conversational
process without human-in-the-loop. In a challenging 1-shot learning setup, our
simple approach surpasses the white-box continuous prompting method CoOp by an
average of 1.5% across 11 datasets including ImageNet. Our approach also
outperforms OpenAI's manually crafted prompts and is more efficient than other
black-box methods like iterative APE. Additionally, we highlight the advantage
of conversational feedback incorporating both positive and negative prompts,
suggesting that LLMs can utilize the implicit "gradient" direction in textual
feedback for a more efficient search. Lastly, we find that the text prompts
generated through our strategy are not only more interpretable but also
transfer well across different CLIP architectures in a black-box manner.
- Abstract(参考訳): Webスケールデータセットで事前訓練された視覚言語モデル(VLM)は、様々な視覚とマルチモーダルタスクにまたがる顕著な能力を示している。
現在、VLMの微調整法は主にホワイトボックスで動作しており、バックプロパゲーションのためにモデルパラメータにアクセスする必要がある。
しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。
chatgptのような一般的なプライベートな大規模言語モデル(llms)が依然として言語ベースのユーザインターフェースを提供していることを考えると、自然言語プロンプトによるvlmの新たな微調整アプローチの開発を目標としています。
そこで本稿では,CLIP を用いた少数の画像分類において,最高のテキストプロンプトを検索するために,チャットベースの LLM をブラックボックスオプティマイザとして採用することを提案する。
具体的には、現在のプロンプトの正確さを評価し、LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで、効果的なプロンプトに収束する自動「ヒルクライミング」手順を、すべて人間を介さずに会話プロセス内に導入する。
難易度の高い1ショット学習セットアップでは、imagenetを含む11のデータセットで、ホワイトボックス連続プロンプトメソッドcoopを平均1.5%上回っています。
当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れており,反復APEのような他のブラックボックスメソッドよりも効率的です。
さらに,肯定的および否定的両方のプロンプトを取り入れた会話フィードバックの利点を強調し,LLMがテキストフィードバックの「緩やかな」方向をより効率的な検索に活用できることを示唆した。
最後に、我々の戦略によって生成されたテキストプロンプトは、解釈可能であるだけでなく、ブラックボックス方式で異なるCLIPアーキテクチャ間でうまく転送されている。
関連論文リスト
- Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。