論文の概要: GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2311.05729v1
- Date: Thu, 9 Nov 2023 20:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:50:52.999167
- Title: GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot
Learning
- Title(参考訳): gipcol:合成ゼロショット学習のためのグラフインジェクションソフトプロンプト
- Authors: Guangyue Xu, Joyce Chai, Parisa Kordjamshidi
- Abstract要約: GIP-COL(Graph-Injected Soft Prompting for Compositional Learning)を提案し、事前学習された視覚言語モデル(VLM)の合成ゼロショット学習(CZSL)能力について検討する。
GIPCOLはMIT-States、UT-Zappos、C-GQAデータセットを含む3つのCZSLベンチマークで最先端のAUC結果を達成する。
- 参考スコア(独自算出の注目度): 32.38272122354342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs) have achieved promising success in
many fields, especially with prompt learning paradigm. In this work, we propose
GIP-COL (Graph-Injected Soft Prompting for COmpositional Learning) to better
explore the compositional zero-shot learning (CZSL) ability of VLMs within the
prompt-based learning framework. The soft prompt in GIPCOL is structured and
consists of the prefix learnable vectors, attribute label and object label. In
addition, the attribute and object labels in the soft prompt are designated as
nodes in a compositional graph. The compositional graph is constructed based on
the compositional structure of the objects and attributes extracted from the
training data and consequently feeds the updated concept representation into
the soft prompt to capture this compositional structure for a better prompting
for CZSL. With the new prompting strategy, GIPCOL achieves state-of-the-art AUC
results on all three CZSL benchmarks, including MIT-States, UT-Zappos, and
C-GQA datasets in both closed and open settings compared to previous non-CLIP
as well as CLIP-based methods. We analyze when and why GIPCOL operates well
given the CLIP backbone and its training data limitations, and our findings
shed light on designing more effective prompts for CZSL
- Abstract(参考訳): 事前学習型視覚言語モデル(VLM)は多くの分野で、特に素早い学習パラダイムで有望な成功を収めている。
本稿では,VLMの合成ゼロショット学習能力(CZSL)をよりよく研究するためのGIP-COL(Graph-Injected Soft Prompting for Compositional Learning)を提案する。
GIPCOLのソフトプロンプトは、プレフィックス学習可能なベクトル、属性ラベル、オブジェクトラベルで構成されている。
さらに、ソフトプロンプト内の属性とオブジェクトラベルを合成グラフ内のノードとして指定する。
この構成グラフは、トレーニングデータから抽出された対象と属性の合成構造に基づいて構築され、その結果、更新された概念表現をソフトプロンプトに供給し、この構成構造を捕捉し、CZSLのより良いプロンプトを実現する。
新しいプロンプト戦略により、GIPCOLはMIT-States、UT-Zappos、C-GQAデータセットを含む3つのCZSLベンチマークで、以前のCLIPとCLIPベースのメソッドと比較して、クローズドおよびオープンな設定で、最先端のAUC結果を達成する。
GIPCOLがCLIPバックボーンとそのトレーニングデータ制限を十分に考慮し,より効果的なCZSLのプロンプトの設計に光を当てている理由を分析した。
関連論文リスト
- Prompting Disentangled Embeddings for Knowledge Graph Completion with
Pre-trained Language Model [38.00241874974804]
グラフ構造とテキスト情報の両方が知識グラフ補完(KGC)において重要な役割を果たす
本稿では, PDKGCと呼ばれる新しいKGC手法を提案し, ハードタスクプロンプトとアンタングル構造プロンプトの2つのプロンプトを提案する。
2つのプロンプトにより、PDKGCはテキスト予測器と構造予測器をそれぞれ構築し、それらの組み合わせはより包括的なエンティティ予測をもたらす。
論文 参考訳(メタデータ) (2023-12-04T12:20:25Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning [80.29186197773636]
合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model [73.33909351531463]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - ComCLIP: Training-Free Compositional Image and Text Matching [21.16438228904759]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Prompting Large Pre-trained Vision-Language Models For Compositional
Concept Learning [18.33873821351301]
textitPromptCompVLは、MIT-Statesデータセット上で最先端のパフォーマンスを達成する。
提案手法は,他のCLIP法と比較して一貫した改善を実現している。
論文 参考訳(メタデータ) (2022-11-09T18:08:53Z) - Unifying Graph Contrastive Learning with Flexible Contextual Scopes [57.86762576319638]
フレキシブルコンテキストスコープを用いたグラフコントラスト学習(略してUGCL)という自己教師型学習手法を提案する。
本アルゴリズムは,隣接行列のパワーを制御し,コンテキストスコープによるフレキシブルな文脈表現を構築する。
局所的スコープと文脈的スコープの両方の表現に基づいて、distLはグラフ表現学習のための非常に単純な対照的な損失関数を最適化する。
論文 参考訳(メタデータ) (2022-10-17T07:16:17Z) - KG-SP: Knowledge Guided Simple Primitives for Open World Compositional
Zero-Shot Learning [52.422873819371276]
オープンワールドコンポジションゼロショット学習(OW-CZSL)の目的は、画像中の状態とオブジェクトの合成を認識することである。
ここでは、単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立して予測する。
出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。
我々のモデルであるKG-SPはOW-CZSLとpCZSLの両方で技術の状態を達成する。
論文 参考訳(メタデータ) (2022-05-13T17:18:15Z) - Compact Graph Structure Learning via Mutual Information Compression [79.225671302689]
グラフ構造学習(GSL)は、グラフニューラルネットワーク(GNN)のグラフ構造と学習パラメータを最適化する能力に大きな注目を集めている。
我々は、MI圧縮によるコンパクトGSLアーキテクチャ、CoGSLを提案する。
クリーンで攻撃的な条件下で複数のデータセットに対して広範な実験を行い、CoGSLの有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2022-01-14T16:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。