論文の概要: What does CLIP know about a red circle? Visual prompt engineering for
VLMs
- arxiv url: http://arxiv.org/abs/2304.06712v2
- Date: Fri, 18 Aug 2023 05:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:05:01.237078
- Title: What does CLIP know about a red circle? Visual prompt engineering for
VLMs
- Title(参考訳): CLIPはレッドサークルについて何を知っていますか?
VLMのためのビジュアルプロンプトエンジニアリング
- Authors: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
- Abstract要約: テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
- 参考スコア(独自算出の注目度): 116.8806079598019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision-Language Models, such as CLIP, learn powerful image-text
representations that have found numerous applications, from zero-shot
classification to text-to-image generation. Despite that, their capabilities
for solving novel discriminative tasks via prompting fall behind those of large
language models, such as GPT-3. Here we explore the idea of visual prompt
engineering for solving computer vision tasks beyond classification by editing
in image space instead of text. In particular, we discover an emergent ability
of CLIP, where, by simply drawing a red circle around an object, we can direct
the model's attention to that region, while also maintaining global
information. We show the power of this simple approach by achieving
state-of-the-art in zero-shot referring expressions comprehension and strong
performance in keypoint localization tasks. Finally, we draw attention to some
potential ethical concerns of large language-vision models.
- Abstract(参考訳): CLIPのような大規模ビジョンランゲージモデルは、ゼロショット分類からテキスト・ツー・イメージ生成に至るまで、多数のアプリケーションを発見した強力な画像テキスト表現を学習する。
それにもかかわらず、GPT-3のような大規模言語モデルに後れを取って、新しい差別的タスクを解く能力がある。
ここでは,テキストではなく画像空間で編集することにより,分類以外のコンピュータビジョンの課題を解決するビジュアルプロンプトエンジニアリングの考え方を検討する。
特に、CLIPの創発的な能力は、単にオブジェクトの周りに赤い円を描くことで、その領域にモデルの注意を向けると同時に、グローバルな情報を維持することができる。
ゼロショット参照表現の理解とキーポイントローカライゼーションタスクにおける強力なパフォーマンスを実現することにより,この単純なアプローチのパワーを示す。
最後に、大きな言語ビジョンモデルの潜在的な倫理的懸念に注意を向ける。
関連論文リスト
- ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。
提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文 参考訳(メタデータ) (2024-06-04T02:28:51Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts [38.59120110371588]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。
これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。
我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文 参考訳(メタデータ) (2023-12-01T18:59:56Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination [57.49336064527538]
視覚的想像力を持つ言語モデルを実現するための新しいアプローチであるZ-LaVIを開発した。
i) 既存の画像の検索によるリコールと, (ii) テキスト・ツー・イメージ生成による既存の画像の合成である。
言語入力と想像力を併用して、事前訓練された視覚言語モデルは、最終的に元の言語タスクに対するゼロショットのソリューションを構成する。
論文 参考訳(メタデータ) (2022-10-21T21:33:10Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。