論文の概要: TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning
- arxiv url: http://arxiv.org/abs/2412.08176v1
- Date: Wed, 11 Dec 2024 08:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:25.430641
- Title: TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning
- Title(参考訳): TextRefiner: Vision-Language Models Prompt Tuningのための効率的なリファイナとしての内部ビジュアル機能
- Authors: Jingjing Xie, Yuxin Zhang, Jun Peng, Zhaohong Huang, Liujuan Cao,
- Abstract要約: TextRefinerは、既存のメソッドのテキストプロンプトを洗練するためのプラグイン・アンド・プレイメソッドである。
きめ細かいビジュアル概念をカプセル化する新しいローカルキャッシュモジュールを構築している。
最先端のパフォーマンスを実現し、推論で効率的である。
- 参考スコア(独自算出の注目度): 16.881957688535557
- License:
- Abstract: Despite the efficiency of prompt learning in transferring vision-language models (VLMs) to downstream tasks, existing methods mainly learn the prompts in a coarse-grained manner where the learned prompt vectors are shared across all categories. Consequently, the tailored prompts often fail to discern class-specific visual concepts, thereby hindering the transferred performance for classes that share similar or complex visual attributes. Recent advances mitigate this challenge by leveraging external knowledge from Large Language Models (LLMs) to furnish class descriptions, yet incurring notable inference costs. In this paper, we introduce TextRefiner, a plug-and-play method to refine the text prompts of existing methods by leveraging the internal knowledge of VLMs. Particularly, TextRefiner builds a novel local cache module to encapsulate fine-grained visual concepts derivedfrom local tokens within the image branch. By aggregating and aligning the cached visual descriptions with the original output of the text branch, TextRefiner can efficiently refine and enrich the learned prompts from existing methods without relying on any external expertise. For example, it improves the performance of CoOp from 71.66 % to 76.94 % on 11 benchmarks, surpassing CoCoOp which introduces instance-wise features for text prompts. Equipped with TextRefiner, PromptKD achieves state-of-the-art performance and is efficient in inference. Our code is relesed at https://github.com/xjjxmu/TextRefiner
- Abstract(参考訳): 視覚言語モデル(VLM)を下流タスクに転送する際の迅速な学習の効率にもかかわらず、既存の手法は主に、学習されたプロンプトベクトルがすべてのカテゴリで共有される粗粒度な方法でプロンプトを学習する。
その結果、調整されたプロンプトはクラス固有の視覚概念を識別できないことが多く、類似または複雑な視覚属性を共有するクラスに対する変換パフォーマンスを阻害する。
近年の進歩は、Large Language Models (LLMs) からの外部知識を活用して、クラス記述を提供することで、この課題を緩和しているが、注目すべき推論コストは発生しない。
本稿では,VLMの内部知識を活用することで,既存の手法のテキストプロンプトを洗練するためのプラグイン・アンド・プレイ方式であるTextRefinerを紹介する。
特にTextRefinerは、イメージブランチ内のローカルトークンから派生したきめ細かいビジュアル概念をカプセル化する、新しいローカルキャッシュモジュールを構築している。
TextRefinerは、キャッシュされたビジュアル記述をテキストブランチの元々の出力に集約および整合させることで、外部の専門知識に頼ることなく、既存のメソッドから学んだプロンプトを効率的に洗練し、強化することができる。
例えば、11ベンチマークでのCoOpのパフォーマンスは71.66 %から76.94 %に向上し、テキストプロンプトのインスタンスワイド機能を導入しているCoCoOpを上回っている。
TextRefinerを装備したPromptKDは、最先端のパフォーマンスを実現し、推論で効率的である。
私たちのコードはhttps://github.com/xjjxmu/TextRefinerで更新されます。
関連論文リスト
- Tree of Attributes Prompt Learning for Vision-Language Models [27.64685205305313]
本稿では,各カテゴリに「概念-属性-記述」構造を持つ属性のツリーを生成する属性学習(TAP)を提案する。
非構造化記述の集合で単にカテゴリ名を拡大する既存の方法とは異なり、本手法は基本的に構造化知識グラフを蒸留する。
提案手法では,テキストと視覚のプロンプトを導入し,対応する視覚属性を明示的に学習し,ドメインの専門家として効果的に機能する。
論文 参考訳(メタデータ) (2024-10-15T02:37:39Z) - The Solution for Language-Enhanced Image New Category Discovery [5.500122875523184]
本稿では,CLIPのトレーニングプロセスの反転とPseudo Visual Promptsの概念の導入を提案する。
これらのプロンプトは各対象カテゴリに対して行われ、大規模で低コストな文データに基づいて事前訓練される。
次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
論文 参考訳(メタデータ) (2024-07-06T08:09:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。