論文の概要: Visual Adaptive Prompting for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2502.20292v2
- Date: Fri, 14 Mar 2025 15:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:07.994406
- Title: Visual Adaptive Prompting for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のための視覚適応型プロンプト
- Authors: Kyle Stein, Arash Mahyari, Guillermo Francia, Eman El-Sheikh,
- Abstract要約: VLM(Vision-Language Models)は、視覚およびテキストデータの共同表現を学習する際、印象的な能力を示す。
CZSLは、トレーニング中に明示的に遭遇しなかった属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。
意味的特徴と視覚的特徴のギャップを埋める視覚適応型プロンプトシステム(VAPS)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision-Language Models (VLMs) have demonstrated impressive capabilities in learning joint representations of visual and textual data, making them powerful tools for tasks such as Compositional Zero-Shot Learning (CZSL). CZSL requires models to generalize to novel combinations of visual primitives-such as attributes and objects-that were not explicitly encountered during training. Recent works in prompting for CZSL have focused on modifying inputs for the text encoder, often using static prompts that do not change across varying visual contexts. However, these approaches struggle to fully capture varying visual contexts, as they focus on text adaptation rather than leveraging visual features for compositional reasoning. To address this, we propose Visual Adaptive Prompting System (VAPS) that leverages a learnable visual prompt repository and similarity-based retrieval mechanism within the framework of VLMs to bridge the gap between semantic and visual features. Our method introduces a dynamic visual prompt repository mechanism that selects the most relevant attribute and object prompts based on the visual features of the image. Our proposed system includes a visual prompt adapter that encourages the model to learn a more generalizable embedding space. Experiments on three CZSL benchmarks, across both closed and open-world scenarios, demonstrate state-of-the-art results.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的およびテキスト的データの共同表現を学習する際の印象的な能力を示し、コンポジションゼロショット学習(CZSL)のようなタスクのための強力なツールである。
CZSLは、トレーニング中に明示的に遭遇しなかった属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。
CZSLのプロンプトにおける最近の研究は、テキストエンコーダの入力を変更することに重点を置いており、多くの場合、様々な視覚的コンテキストで変化しない静的プロンプトを使用している。
しかし、これらのアプローチは、構成的推論に視覚的特徴を活用するのではなく、テキスト適応に焦点を当てているため、様々な視覚的コンテキストを完全に捉えるのに苦労する。
そこで本研究では,視覚的特徴と視覚的特徴のギャップを埋めるために,学習可能な視覚的プロンプトレポジトリと,VLMのフレームワーク内の類似性に基づく検索機構を活用する視覚適応型プロンプトシステムを提案する。
本手法では,画像の視覚的特徴に基づいて,最も関連性の高い属性とオブジェクトのプロンプトを選択する動的ビジュアルプロンプトレポジトリ機構を導入する。
提案システムには,より一般化可能な埋め込み空間の学習を促す視覚的プロンプトアダプタが組み込まれている。
クローズドシナリオとオープンワールドシナリオの両方にわたる3つのCZSLベンチマークの実験は、最先端の結果を示している。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。