論文の概要: A Systematic Survey of Prompt Engineering on Vision-Language Foundation
Models
- arxiv url: http://arxiv.org/abs/2307.12980v1
- Date: Mon, 24 Jul 2023 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:13:09.861808
- Title: A Systematic Survey of Prompt Engineering on Vision-Language Foundation
Models
- Title(参考訳): 視覚言語基礎モデルにおけるプロンプトエンジニアリングに関する体系的調査
- Authors: Jindong Gu, Zhen Han, Shuo Chen, Ahmad Beirami, Bailan He, Gengyuan
Zhang, Ruotong Liao, Yao Qin, Volker Tresp, Philip Torr
- Abstract要約: プロンプトエンジニアリングは、新しいタスクにモデルを適応させるために、プロンプトとして知られるタスク固有のヒントで、トレーニング済みの大きなモデルを拡張することを含む。
本稿では,3種類の視覚言語モデルについて,最先端の研究の総合的な調査を行うことを目的とする。
- 参考スコア(独自算出の注目度): 43.35892536887404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering is a technique that involves augmenting a large
pre-trained model with task-specific hints, known as prompts, to adapt the
model to new tasks. Prompts can be created manually as natural language
instructions or generated automatically as either natural language instructions
or vector representations. Prompt engineering enables the ability to perform
predictions based solely on prompts without updating model parameters, and the
easier application of large pre-trained models in real-world tasks. In past
years, Prompt engineering has been well-studied in natural language processing.
Recently, it has also been intensively studied in vision-language modeling.
However, there is currently a lack of a systematic overview of prompt
engineering on pre-trained vision-language models. This paper aims to provide a
comprehensive survey of cutting-edge research in prompt engineering on three
types of vision-language models: multimodal-to-text generation models (e.g.
Flamingo), image-text matching models (e.g. CLIP), and text-to-image generation
models (e.g. Stable Diffusion). For each type of model, a brief model summary,
prompting methods, prompting-based applications, and the corresponding
responsibility and integrity issues are summarized and discussed. Furthermore,
the commonalities and differences between prompting on vision-language models,
language models, and vision models are also discussed. The challenges, future
directions, and research opportunities are summarized to foster future research
on this topic.
- Abstract(参考訳): プロンプトエンジニアリングは、プロンプトと呼ばれるタスク固有のヒントを使って、新しいタスクにモデルを適応させる、大きな事前学習されたモデルを強化する技術である。
プロンプトは自然言語命令として手動で作成したり、自然言語命令やベクトル表現として自動生成することができる。
プロンプトエンジニアリングにより、モデルパラメータを更新せずにプロンプトのみに基づいて予測を行うことができ、現実世界のタスクで大規模な事前学習モデルを簡単に適用できる。
近年、プロンプト工学は自然言語処理においてよく研究されている。
近年,視覚言語モデルの研究も盛んに行われている。
しかし、現在、事前訓練された視覚言語モデルにおけるプロンプトエンジニアリングの体系的な概要が欠けている。
本稿では,マルチモーダル-テキスト生成モデル(flamingoなど),画像-テキストマッチングモデル(クリップなど),テキスト-画像生成モデル(安定拡散など)の3種類の視覚言語モデルに関する,プロンプトエンジニアリングにおける最先端研究の包括的調査を目的とする。
モデルの種類ごとに、簡単なモデル概要、メソッドのプロンプト、プロンプトベースのアプリケーション、および対応する責任と整合性の問題について要約し、議論する。
さらに,視覚言語モデル,言語モデル,視覚モデルに対するプロンプトの共通性と相違についても考察した。
このトピックに関する今後の研究を進めるために,課題,今後の方向性,研究の機会をまとめる。
関連論文リスト
- Prompt Mining for Language-based Human Mobility Forecasting [10.325794804095889]
本稿では,言語に基づくモビリティ予測における迅速なマイニングのための新しいフレームワークを提案する。
本発明のフレームワークは、プロンプトの情報エントロピーに基づく即時生成段階と、思考の連鎖などのメカニズムを統合する即時改善段階とを含む。
論文 参考訳(メタデータ) (2024-03-06T08:43:30Z) - A Systematic Survey of Prompt Engineering in Large Language Models:
Techniques and Applications [11.568575664316143]
本稿では,応用分野別に分類した,最近のプロンプト工学の進歩について概説する。
本稿では、プロンプト手法、その応用、関連するモデル、利用したデータセットについて詳述する。
この体系的な分析は、この急速に発展している分野をよりよく理解し、オープンな課題と迅速なエンジニアリングの機会を照明することによって将来の研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T19:49:13Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Foundation Models for Natural Language Processing -- Pre-trained
Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。
画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。
本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文 参考訳(メタデータ) (2023-02-16T20:42:04Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Prompt Programming for Large Language Models: Beyond the Few-Shot
Paradigm [0.0]
自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。
モデルに種を付けて、さまざまなタスクのための独自の自然言語プロンプトを生成するメタプロンプトのアイデアを紹介します。
論文 参考訳(メタデータ) (2021-02-15T05:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。