論文の概要: What does CLIP know about a red circle? Visual prompt engineering for
VLMs
- arxiv url: http://arxiv.org/abs/2304.06712v2
- Date: Fri, 18 Aug 2023 05:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:05:01.237078
- Title: What does CLIP know about a red circle? Visual prompt engineering for
VLMs
- Title(参考訳): CLIPはレッドサークルについて何を知っていますか?
VLMのためのビジュアルプロンプトエンジニアリング
- Authors: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
- Abstract要約: テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
- 参考スコア(独自算出の注目度): 116.8806079598019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision-Language Models, such as CLIP, learn powerful image-text
representations that have found numerous applications, from zero-shot
classification to text-to-image generation. Despite that, their capabilities
for solving novel discriminative tasks via prompting fall behind those of large
language models, such as GPT-3. Here we explore the idea of visual prompt
engineering for solving computer vision tasks beyond classification by editing
in image space instead of text. In particular, we discover an emergent ability
of CLIP, where, by simply drawing a red circle around an object, we can direct
the model's attention to that region, while also maintaining global
information. We show the power of this simple approach by achieving
state-of-the-art in zero-shot referring expressions comprehension and strong
performance in keypoint localization tasks. Finally, we draw attention to some
potential ethical concerns of large language-vision models.
- Abstract(参考訳): CLIPのような大規模ビジョンランゲージモデルは、ゼロショット分類からテキスト・ツー・イメージ生成に至るまで、多数のアプリケーションを発見した強力な画像テキスト表現を学習する。
それにもかかわらず、GPT-3のような大規模言語モデルに後れを取って、新しい差別的タスクを解く能力がある。
ここでは,テキストではなく画像空間で編集することにより,分類以外のコンピュータビジョンの課題を解決するビジュアルプロンプトエンジニアリングの考え方を検討する。
特に、CLIPの創発的な能力は、単にオブジェクトの周りに赤い円を描くことで、その領域にモデルの注意を向けると同時に、グローバルな情報を維持することができる。
ゼロショット参照表現の理解とキーポイントローカライゼーションタスクにおける強力なパフォーマンスを実現することにより,この単純なアプローチのパワーを示す。
最後に、大きな言語ビジョンモデルの潜在的な倫理的懸念に注意を向ける。
関連論文リスト
- Alpha-CLIP: A CLIP Model Focusing on Wherever You Want [77.17294130370921]
コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。
補助的なαチャネルを持つCLIPの強化版であるAlpha-CLIPを導入し、注意領域を提案するとともに、数百万のRGBA領域テキストペアを構築した微調整を行う。
オープンワールド認識、マルチモーダルな大言語モデル、条件付き2D/3D生成など、様々なタスクで有効性を示す。
論文 参考訳(メタデータ) (2023-12-06T18:59:30Z) - Making Large Multimodal Models Understand Arbitrary Visual Prompts [40.526384693638065]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。
これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。
我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文 参考訳(メタデータ) (2023-12-01T18:59:56Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Vision-Language Models in Remote Sensing: Current Progress and Future
Trends [19.179306993193023]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それら間の関係を推測したり、画像の自然言語記述を生成することもできる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination [57.49336064527538]
視覚的想像力を持つ言語モデルを実現するための新しいアプローチであるZ-LaVIを開発した。
i) 既存の画像の検索によるリコールと, (ii) テキスト・ツー・イメージ生成による既存の画像の合成である。
言語入力と想像力を併用して、事前訓練された視覚言語モデルは、最終的に元の言語タスクに対するゼロショットのソリューションを構成する。
論文 参考訳(メタデータ) (2022-10-21T21:33:10Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。