論文の概要: FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance
- arxiv url: http://arxiv.org/abs/2407.05578v1
- Date: Mon, 8 Jul 2024 03:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:10:02.891248
- Title: FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance
- Title(参考訳): FALIP: ビジュアルプロンプトでCLIPゼロショットのパフォーマンスが向上
- Authors: Jiedong Zhuang, Jiaqi Hu, Lianrui Mu, Rui Hu, Xiaoyu Liang, Jiangnan Ye, Haoji Hu,
- Abstract要約: Foveal-Attention CLIP (FALIP) は、多頭部自己注意モジュールに葉の注意マスクを挿入することにより、CLIPの注意を調節する。
FALIPは、表現理解、画像分類、3Dポイントクラウド認識などのタスクにおいて、CLIPゼロショットのパフォーマンスを効果的に向上する。
- 参考スコア(独自算出の注目度): 7.041364616661048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP has achieved impressive zero-shot performance after pre-training on a large-scale dataset consisting of paired image-text data. Previous works have utilized CLIP by incorporating manually designed visual prompts like colored circles and blur masks into the images to guide the model's attention, showing enhanced zero-shot performance in downstream tasks. Although these methods have achieved promising results, they inevitably alter the original information of the images, which can lead to failure in specific tasks. We propose a train-free method Foveal-Attention CLIP (FALIP), which adjusts the CLIP's attention by inserting foveal attention masks into the multi-head self-attention module. We demonstrate FALIP effectively boosts CLIP zero-shot performance in tasks such as referring expressions comprehension, image classification, and 3D point cloud recognition. Experimental results further show that FALIP outperforms existing methods on most metrics and can augment current methods to enhance their performance.
- Abstract(参考訳): CLIPは、ペア画像テキストデータからなる大規模データセットで事前トレーニングした後、印象的なゼロショットのパフォーマンスを達成した。
以前の作業では、カラーサークルやぼやけたマスクといった手作業で設計された視覚的プロンプトをイメージに組み込んで、モデルの注意をガイドし、下流タスクにおけるゼロショットのパフォーマンスを向上した。
これらの手法は有望な結果を得たが、画像の元の情報を必然的に変更し、特定のタスクで失敗する可能性がある。
マルチヘッド自己注意モジュールに葉の注意マスクを挿入することでCLIPの注意を調節するFoveal-Attention CLIP (FALIP)を提案する。
FALIPは,表現理解,画像分類,3Dポイントクラウド認識などのタスクにおいて,CLIPゼロショット性能を効果的に向上することを示した。
さらに実験結果から,FALIPは既存の手法よりも高い性能を示し,現在の手法を改良して性能を向上させることができることがわかった。
関連論文リスト
- Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action
Recognition [30.15770881713811]
オープン語彙行動認識のための効果的なフレームワークであるFROSTERを紹介する。
CLIPをアクション認識タスクに直接適用することは、CLIPの事前トレーニングに時間情報がないため、難しい。
我々はFROSTERを,ベース・ツー・ノーベルとクロス・データセットの両設定の下で,オープン・ボキャブラリ・アクション認識ベンチマークで広範囲に評価した。
論文 参考訳(メタデータ) (2024-02-05T17:56:41Z) - CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文 参考訳(メタデータ) (2023-11-07T12:36:20Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。