論文の概要: Review of Large Vision Models and Visual Prompt Engineering
- arxiv url: http://arxiv.org/abs/2307.00855v1
- Date: Mon, 3 Jul 2023 08:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:59:15.587539
- Title: Review of Large Vision Models and Visual Prompt Engineering
- Title(参考訳): 大型ビジョンモデルとビジュアル・プロンプト・エンジニアリングの展望
- Authors: Jiaqi Wang, Zhengliang Liu, Lin Zhao, Zihao Wu, Chong Ma, Sigang Yu,
Haixing Dai, Qiushi Yang, Yiheng Liu, Songyao Zhang, Enze Shi, Yi Pan, Tuo
Zhang, Dajiang Zhu, Xiang Li, Xi Jiang, Bao Ge, Yixuan Yuan, Dinggang Shen,
Tianming Liu, Shu Zhang
- Abstract要約: レビューは、大きな視覚モデルと視覚プロンプトエンジニアリングのためにコンピュータビジョン領域で使用される手法を要約することを目的としている。
本稿では、視覚領域における影響力のある大規模モデルと、これらのモデルに使用される一連のプロンプトエンジニアリング手法を提案する。
- 参考スコア(独自算出の注目度): 50.63394642549947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual prompt engineering is a fundamental technology in the field of visual
and image Artificial General Intelligence, serving as a key component for
achieving zero-shot capabilities. As the development of large vision models
progresses, the importance of prompt engineering becomes increasingly evident.
Designing suitable prompts for specific visual tasks has emerged as a
meaningful research direction. This review aims to summarize the methods
employed in the computer vision domain for large vision models and visual
prompt engineering, exploring the latest advancements in visual prompt
engineering. We present influential large models in the visual domain and a
range of prompt engineering methods employed on these models. It is our hope
that this review provides a comprehensive and systematic description of prompt
engineering methods based on large visual models, offering valuable insights
for future researchers in their exploration of this field.
- Abstract(参考訳): ビジュアルプロンプトエンジニアリングは、視覚と画像の汎用人工知能の分野における基本的な技術であり、ゼロショット機能を達成するための重要なコンポーネントとして機能する。
大きなビジョンモデルの開発が進むにつれて、迅速なエンジニアリングの重要性がますます明らかになる。
特定の視覚的タスクに適したプロンプトを設計することは、有意義な研究方向として現れている。
本稿では,コンピュータビジョン領域における大規模視覚モデルと視覚プロンプト工学の手法を概説し,視覚プロンプト工学の最新の進歩を探求する。
我々は,視覚領域における影響力のある大規模モデルと,これらのモデルに採用される迅速設計手法を提案する。
このレビューは、大規模な視覚モデルに基づく迅速なエンジニアリング手法を包括的かつ体系的に記述し、将来の研究者がこの分野を探求する上で貴重な洞察を提供することを願っている。
関連論文リスト
- Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - A Systematic Survey of Prompt Engineering in Large Language Models:
Techniques and Applications [11.568575664316143]
本稿では,応用分野別に分類した,最近のプロンプト工学の進歩について概説する。
本稿では、プロンプト手法、その応用、関連するモデル、利用したデータセットについて詳述する。
この体系的な分析は、この急速に発展している分野をよりよく理解し、オープンな課題と迅速なエンジニアリングの機会を照明することによって将来の研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T19:49:13Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - A Systematic Survey of Prompt Engineering on Vision-Language Foundation
Models [43.35892536887404]
プロンプトエンジニアリングは、新しいタスクにモデルを適応させるために、プロンプトとして知られるタスク固有のヒントで、トレーニング済みの大きなモデルを拡張することを含む。
本稿では,3種類の視覚言語モデルについて,最先端の研究の総合的な調査を行うことを目的とする。
論文 参考訳(メタデータ) (2023-07-24T17:58:06Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z) - Visual Sensation and Perception Computational Models for Deep Learning:
State of the art, Challenges and Prospects [7.949330621850412]
視覚感覚と知覚は、環境認識と理解において視覚情報を検知し、整理し、識別し、解釈する過程を指す。
視覚知覚にインスパイアされた計算モデルは、認知科学、情報科学、人工知能など多くの分野から生まれた複雑さと多様性の特徴を持つ。
論文 参考訳(メタデータ) (2021-09-08T01:51:24Z) - Attention mechanisms and deep learning for machine vision: A survey of
the state of the art [0.0]
ビジョントランスフォーマー(ViT)は、確立されたディープラーニングベースのマシンビジョン技術にかなり挑戦している。
いくつかの最近の研究は、これらの2つの異なるフィールドの組み合わせが、両方のフィールドの利点を持つシステムを構築することを証明することを示唆している。
論文 参考訳(メタデータ) (2021-06-03T10:23:32Z) - Deep learning for scene recognition from visual data: a survey [2.580765958706854]
この研究は、視覚データから深層学習モデルを用いて、シーン認識における最先端の技術をレビューすることを目的としている。
シーン認識は依然としてコンピュータビジョンの新たな分野であり、単一の画像と動的な画像の観点から対処されてきた。
論文 参考訳(メタデータ) (2020-07-03T16:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。