論文の概要: CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2305.16681v1
- Date: Fri, 26 May 2023 07:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:41:23.989835
- Title: CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning
- Title(参考訳): CAILA: 合成ゼロショット学習のための概念認識型層内アダプタ
- Authors: Zhaoheng Zheng, Haidong Zhu and Ram Nevatia
- Abstract要約: 本研究では,新しい属性オブジェクト合成の認識を目的とした合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入する。
提案手法はCAILA(Concept-Aware intra-Layer Adapters)と呼ぶ。
- 参考スコア(独自算出の注目度): 22.385670309906352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositionality, the ability to combine existing concepts and generalize
towards novel compositions, is a key functionality for intelligent entities.
Here, we study the problem of Compositional Zero-Shot Learning (CZSL), which
aims at recognizing novel attribute-object compositions. Recent approaches
build their systems on top of large-scale Vision-Language Pre-trained (VLP)
models, e.g. CLIP, and observe significant improvements. However, these methods
treat CLIP as a black box and focus on pre- and post-CLIP operations. Here, we
propose to dive deep into the architecture and insert adapters, a
parameter-efficient technique proven to be effective among large language
models, to each CLIP encoder layer. We further equip adapters with concept
awareness so that concept-specific features of "object", "attribute" and
"composition" can be extracted. We name our method CAILA, Concept-Aware
Intra-Layer Adapters. Quantitative evaluations performed on three popular CZSL
datasets, MIT-States, C-GQA, and UT-Zappos, reveal that CAILA achieves
double-digit relative improvements against the current state-of-the-art on all
benchmarks.
- Abstract(参考訳): 構成性は、既存の概念を組み合わせ、新しい構成へと一般化する能力であり、知的実体にとって重要な機能である。
本稿では,新しい属性オブジェクト合成の認識を目的としたコンポジションゼロショット学習(CZSL)の課題について考察する。
近年のアプローチでは、大規模なVision-Language Pre-trained (VLP)モデル上にシステムを構築している。
しかし、これらのメソッドはCLIPをブラックボックスとして扱い、CLIP前および後操作にフォーカスする。
本稿では,CLIPエンコーダの各層に,大規模言語モデルで有効であることが証明されたパラメータ効率の手法であるアダプタを挿入し,アーキテクチャを深く掘り下げることを提案する。
さらに,アダプタに概念認識を持たせることで,"object","attribute","composition"の概念特有の特徴を抽出することができる。
提案手法をcaila,概念認識層内アダプタと呼ぶ。
一般的な3つのCZSLデータセット(MIT-States、C-GQA、UT-Zappos)で実施された定量的評価により、CAILAが現在のベンチマークに対する2桁の相対的な改善を実現していることが明らかになった。
関連論文リスト
- Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
本研究では、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのための強力なベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning [80.29186197773636]
合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation [55.575224613422726]
コントラスト言語-画像事前学習(CLIP)は,画素レベルのオープン語彙学習タスクにおいて大きな可能性を秘めている。
既存のモデルは、未知のクラスから入力ピクセルを容易に識別し、意味的に類似したクラスと混同する。
提案する最適化問題を,個別にセマンティックマッチングを行い,識別能力の向上のために信頼性を判断する2つの並列プロセスに分解する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。