Fugu-MT 論文翻訳(概要): What does CLIP know about a red circle? Visual prompt engineering for VLMs

論文の概要: What does CLIP know about a red circle? Visual prompt engineering for VLMs

arxiv url: http://arxiv.org/abs/2304.06712v2
Date: Fri, 18 Aug 2023 05:49:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 00:05:01.237078
Title: What does CLIP know about a red circle? Visual prompt engineering for VLMs
Title（参考訳）: CLIPはレッドサークルについて何を知っていますか? VLMのためのビジュアルプロンプトエンジニアリング
Authors: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
Abstract要約: テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
参考スコア（独自算出の注目度）: 116.8806079598019
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale Vision-Language Models, such as CLIP, learn powerful image-text representations that have found numerous applications, from zero-shot classification to text-to-image generation. Despite that, their capabilities for solving novel discriminative tasks via prompting fall behind those of large language models, such as GPT-3. Here we explore the idea of visual prompt engineering for solving computer vision tasks beyond classification by editing in image space instead of text. In particular, we discover an emergent ability of CLIP, where, by simply drawing a red circle around an object, we can direct the model's attention to that region, while also maintaining global information. We show the power of this simple approach by achieving state-of-the-art in zero-shot referring expressions comprehension and strong performance in keypoint localization tasks. Finally, we draw attention to some potential ethical concerns of large language-vision models.
Abstract（参考訳）: CLIPのような大規模ビジョンランゲージモデルは、ゼロショット分類からテキスト・ツー・イメージ生成に至るまで、多数のアプリケーションを発見した強力な画像テキスト表現を学習する。それにもかかわらず、GPT-3のような大規模言語モデルに後れを取って、新しい差別的タスクを解く能力がある。ここでは,テキストではなく画像空間で編集することにより,分類以外のコンピュータビジョンの課題を解決するビジュアルプロンプトエンジニアリングの考え方を検討する。特に、CLIPの創発的な能力は、単にオブジェクトの周りに赤い円を描くことで、その領域にモデルの注意を向けると同時に、グローバルな情報を維持することができる。ゼロショット参照表現の理解とキーポイントローカライゼーションタスクにおける強力なパフォーマンスを実現することにより,この単純なアプローチのパワーを示す。最後に、大きな言語ビジョンモデルの潜在的な倫理的懸念に注意を向ける。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文参考訳（メタデータ） (2024-06-04T02:28:51Z)
Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。 LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-23T16:59:02Z)
ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts [38.59120110371588]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文参考訳（メタデータ） (2023-12-01T18:59:56Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文参考訳（メタデータ） (2023-05-26T17:15:22Z)
APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。 APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文参考訳（メタデータ） (2023-04-12T17:20:37Z)
Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination [57.49336064527538]
視覚的想像力を持つ言語モデルを実現するための新しいアプローチであるZ-LaVIを開発した。 i) 既存の画像の検索によるリコールと, (ii) テキスト・ツー・イメージ生成による既存の画像の合成である。言語入力と想像力を併用して、事前訓練された視覚言語モデルは、最終的に元の言語タスクに対するゼロショットのソリューションを構成する。
論文参考訳（メタデータ） (2022-10-21T21:33:10Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。