論文の概要: Language Models as Black-Box Optimizers for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.05950v2
- Date: Mon, 25 Sep 2023 04:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 00:49:46.746870
- Title: Language Models as Black-Box Optimizers for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのブラックボックスオプティマイザとしての言語モデル
- Authors: Shihong Liu and Samuel Yu and Zhiqiu Lin and Deepak Pathak and Deva
Ramanan
- Abstract要約: 本研究では,視覚言語モデル(VLM)を自然言語のプロンプトを用いて微調整する手法を開発した。
難易度の高い1ショット学習では, ホワイトボックス連続プロンプト法(CoOp)を平均1.5%超える簡単な手法が提案されている。
当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れています。
- 参考スコア(独自算出の注目度): 74.94205565784623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) pre-trained on web-scale datasets have
demonstrated remarkable capabilities across a variety of vision and multimodal
tasks. Currently, fine-tuning methods for VLMs mainly operate in a white-box
setting, requiring access to model parameters for backpropagation. However,
many VLMs rely on proprietary data and are not open-source, which restricts the
use of white-box approaches for fine-tuning. Given that popular private large
language models (LLMs) like ChatGPT still offer a language-based user
interface, we aim to develop a novel fine-tuning approach for VLMs through
natural language prompts, thereby avoiding the need to access model parameters,
feature embeddings, or output logits. In this setup, we propose employing
chat-based LLMs as black-box optimizers to search for the best text prompt on
the illustrative task of few-shot image classification using CLIP.
Specifically, we adopt an automatic "hill-climbing" procedure that converges on
an effective prompt by evaluating the accuracy of current prompts and asking
LLMs to refine them based on textual feedback, all within a conversational
process without human-in-the-loop. In a challenging 1-shot learning setup, our
simple approach surpasses the white-box continuous prompting method (CoOp) by
an average of 1.5% across 11 datasets including ImageNet. Our approach also
outperforms OpenAI's manually crafted prompts. Additionally, we highlight the
advantage of conversational feedback that incorporates both positive and
negative prompts, suggesting that LLMs can utilize the implicit "gradient"
direction in textual feedback for a more efficient search. Lastly, we find that
the text prompts generated through our strategy are not only more interpretable
but also transfer well across different CLIP architectures in a black-box
manner.
- Abstract(参考訳): Webスケールデータセットで事前訓練された視覚言語モデル(VLM)は、様々な視覚とマルチモーダルタスクにまたがる顕著な能力を示している。
現在、VLMの微調整法は主にホワイトボックスで動作しており、バックプロパゲーションのためにモデルパラメータにアクセスする必要がある。
しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。
chatgptのような一般的なプライベートな大規模言語モデル(llms)が依然として言語ベースのユーザインターフェースを提供していることを考えると、自然言語プロンプトによるvlmの新たな微調整アプローチの開発を目標としています。
そこで本稿では,CLIP を用いた少数の画像分類において,最高のテキストプロンプトを検索するために,チャットベースの LLM をブラックボックスオプティマイザとして採用することを提案する。
具体的には、現在のプロンプトの正確さを評価し、LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで、効果的なプロンプトに収束する自動「ヒルクライミング」手順を、すべて人間を介さずに会話プロセス内に導入する。
挑戦的な1ショットの学習セットアップでは、ImageNetを含む11データセットの平均1.5%のホワイトボックス連続プロンプトメソッド(CoOp)を、私たちの単純なアプローチで越えています。
当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れています。
さらに,正と負の両方のプロンプトを取り入れた会話フィードバックの利点を強調し,LLMがテキストフィードバックにおける暗黙的な「緩やかな」方向を,より効率的な検索に活用できることを示唆した。
最後に、我々の戦略によって生成されたテキストプロンプトは、解釈可能であるだけでなく、ブラックボックス方式で異なるCLIPアーキテクチャ間でうまく転送されている。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
大型言語モデル(LLM)は視覚言語モデル(VLM)の暗黙の役割を果たす
我々のGLOVメタプロンプトは、下流のタスク記述でLLMをメタプロンプトし、適切なVLMプロンプトに問い合わせる。
VLMの2つのファミリーを用いて16種類の多様なデータセット上でGLOVを評価した。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension [45.856469849910496]
大規模言語モデル(LLM)を用いた参照表現(REC)タスクのための視覚言語モデル(VLM)の「ブラックボックス」適応法を提案する。
LLMはLLMの推論能力を活かし、軽微調整により改良され、参照表現にマッチする最も関連性の高いバウンディングボックスを選択する。
当社のアプローチでは,内部動作へのアクセスを必要とせずに,クローズドソースモデルの適応を可能にするという,いくつかの利点がある。
論文 参考訳(メタデータ) (2024-09-18T12:32:25Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。