論文の概要: GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2311.05729v1
- Date: Thu, 9 Nov 2023 20:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:50:52.999167
- Title: GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot
Learning
- Title(参考訳): gipcol:合成ゼロショット学習のためのグラフインジェクションソフトプロンプト
- Authors: Guangyue Xu, Joyce Chai, Parisa Kordjamshidi
- Abstract要約: GIP-COL(Graph-Injected Soft Prompting for Compositional Learning)を提案し、事前学習された視覚言語モデル(VLM)の合成ゼロショット学習(CZSL)能力について検討する。
GIPCOLはMIT-States、UT-Zappos、C-GQAデータセットを含む3つのCZSLベンチマークで最先端のAUC結果を達成する。
- 参考スコア(独自算出の注目度): 32.38272122354342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs) have achieved promising success in
many fields, especially with prompt learning paradigm. In this work, we propose
GIP-COL (Graph-Injected Soft Prompting for COmpositional Learning) to better
explore the compositional zero-shot learning (CZSL) ability of VLMs within the
prompt-based learning framework. The soft prompt in GIPCOL is structured and
consists of the prefix learnable vectors, attribute label and object label. In
addition, the attribute and object labels in the soft prompt are designated as
nodes in a compositional graph. The compositional graph is constructed based on
the compositional structure of the objects and attributes extracted from the
training data and consequently feeds the updated concept representation into
the soft prompt to capture this compositional structure for a better prompting
for CZSL. With the new prompting strategy, GIPCOL achieves state-of-the-art AUC
results on all three CZSL benchmarks, including MIT-States, UT-Zappos, and
C-GQA datasets in both closed and open settings compared to previous non-CLIP
as well as CLIP-based methods. We analyze when and why GIPCOL operates well
given the CLIP backbone and its training data limitations, and our findings
shed light on designing more effective prompts for CZSL
- Abstract(参考訳): 事前学習型視覚言語モデル(VLM)は多くの分野で、特に素早い学習パラダイムで有望な成功を収めている。
本稿では,VLMの合成ゼロショット学習能力(CZSL)をよりよく研究するためのGIP-COL(Graph-Injected Soft Prompting for Compositional Learning)を提案する。
GIPCOLのソフトプロンプトは、プレフィックス学習可能なベクトル、属性ラベル、オブジェクトラベルで構成されている。
さらに、ソフトプロンプト内の属性とオブジェクトラベルを合成グラフ内のノードとして指定する。
この構成グラフは、トレーニングデータから抽出された対象と属性の合成構造に基づいて構築され、その結果、更新された概念表現をソフトプロンプトに供給し、この構成構造を捕捉し、CZSLのより良いプロンプトを実現する。
新しいプロンプト戦略により、GIPCOLはMIT-States、UT-Zappos、C-GQAデータセットを含む3つのCZSLベンチマークで、以前のCLIPとCLIPベースのメソッドと比較して、クローズドおよびオープンな設定で、最先端のAUC結果を達成する。
GIPCOLがCLIPバックボーンとそのトレーニングデータ制限を十分に考慮し,より効果的なCZSLのプロンプトの設計に光を当てている理由を分析した。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Prompting Disentangled Embeddings for Knowledge Graph Completion with
Pre-trained Language Model [38.00241874974804]
グラフ構造とテキスト情報の両方が知識グラフ補完(KGC)において重要な役割を果たす
本稿では, PDKGCと呼ばれる新しいKGC手法を提案し, ハードタスクプロンプトとアンタングル構造プロンプトの2つのプロンプトを提案する。
2つのプロンプトにより、PDKGCはテキスト予測器と構造予測器をそれぞれ構築し、それらの組み合わせはより包括的なエンティティ予測をもたらす。
論文 参考訳(メタデータ) (2023-12-04T12:20:25Z) - Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement [8.472388165833292]
KGC(CP-KGC)のための制約付きプロンプトというフレームワークを導入する。
このフレームワークは、セマンティック・リッチネスを高めるために、異なるデータセットに適応するプロンプトを設計する。
本研究は,既存のモデルの性能限界を拡張し,KGCと大規模言語モデルとのさらなる統合を促進する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Prompting Large Pre-trained Vision-Language Models For Compositional
Concept Learning [18.33873821351301]
textitPromptCompVLは、MIT-Statesデータセット上で最先端のパフォーマンスを達成する。
提案手法は,他のCLIP法と比較して一貫した改善を実現している。
論文 参考訳(メタデータ) (2022-11-09T18:08:53Z) - Unifying Graph Contrastive Learning with Flexible Contextual Scopes [57.86762576319638]
フレキシブルコンテキストスコープを用いたグラフコントラスト学習(略してUGCL)という自己教師型学習手法を提案する。
本アルゴリズムは,隣接行列のパワーを制御し,コンテキストスコープによるフレキシブルな文脈表現を構築する。
局所的スコープと文脈的スコープの両方の表現に基づいて、distLはグラフ表現学習のための非常に単純な対照的な損失関数を最適化する。
論文 参考訳(メタデータ) (2022-10-17T07:16:17Z) - KG-SP: Knowledge Guided Simple Primitives for Open World Compositional
Zero-Shot Learning [52.422873819371276]
オープンワールドコンポジションゼロショット学習(OW-CZSL)の目的は、画像中の状態とオブジェクトの合成を認識することである。
ここでは、単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立して予測する。
出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。
我々のモデルであるKG-SPはOW-CZSLとpCZSLの両方で技術の状態を達成する。
論文 参考訳(メタデータ) (2022-05-13T17:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。