論文の概要: CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2305.16681v1
- Date: Fri, 26 May 2023 07:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:41:23.989835
- Title: CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning
- Title(参考訳): CAILA: 合成ゼロショット学習のための概念認識型層内アダプタ
- Authors: Zhaoheng Zheng, Haidong Zhu and Ram Nevatia
- Abstract要約: 本研究では,新しい属性オブジェクト合成の認識を目的とした合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入する。
提案手法はCAILA(Concept-Aware intra-Layer Adapters)と呼ぶ。
- 参考スコア(独自算出の注目度): 22.385670309906352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositionality, the ability to combine existing concepts and generalize
towards novel compositions, is a key functionality for intelligent entities.
Here, we study the problem of Compositional Zero-Shot Learning (CZSL), which
aims at recognizing novel attribute-object compositions. Recent approaches
build their systems on top of large-scale Vision-Language Pre-trained (VLP)
models, e.g. CLIP, and observe significant improvements. However, these methods
treat CLIP as a black box and focus on pre- and post-CLIP operations. Here, we
propose to dive deep into the architecture and insert adapters, a
parameter-efficient technique proven to be effective among large language
models, to each CLIP encoder layer. We further equip adapters with concept
awareness so that concept-specific features of "object", "attribute" and
"composition" can be extracted. We name our method CAILA, Concept-Aware
Intra-Layer Adapters. Quantitative evaluations performed on three popular CZSL
datasets, MIT-States, C-GQA, and UT-Zappos, reveal that CAILA achieves
double-digit relative improvements against the current state-of-the-art on all
benchmarks.
- Abstract(参考訳): 構成性は、既存の概念を組み合わせ、新しい構成へと一般化する能力であり、知的実体にとって重要な機能である。
本稿では,新しい属性オブジェクト合成の認識を目的としたコンポジションゼロショット学習(CZSL)の課題について考察する。
近年のアプローチでは、大規模なVision-Language Pre-trained (VLP)モデル上にシステムを構築している。
しかし、これらのメソッドはCLIPをブラックボックスとして扱い、CLIP前および後操作にフォーカスする。
本稿では,CLIPエンコーダの各層に,大規模言語モデルで有効であることが証明されたパラメータ効率の手法であるアダプタを挿入し,アーキテクチャを深く掘り下げることを提案する。
さらに,アダプタに概念認識を持たせることで,"object","attribute","composition"の概念特有の特徴を抽出することができる。
提案手法をcaila,概念認識層内アダプタと呼ぶ。
一般的な3つのCZSLデータセット(MIT-States、C-GQA、UT-Zappos)で実施された定量的評価により、CAILAが現在のベンチマークに対する2桁の相対的な改善を実現していることが明らかになった。
関連論文リスト
- Compositional Zero-Shot Learning with Contextualized Cues and Adaptive Contrastive Training [17.893694262999826]
本稿では,コンポジションゼロショット学習(CZSL)における属性とオブジェクト(ULAO)の理解とリンクに関する新しい枠組みを紹介する。
ULAOは2つの革新的なモジュールから構成されている。理解属性とオブジェクト(UAO)モジュールは、逐次原始予測によって原始的理解を改善し、認識されたオブジェクトを属性分類の文脈的ヒントとして活用する。
Linking Attributes and Objects (LAO)モジュールは、調整されたハードネガティブ生成と適応的損失調整を含む新しいコントラスト学習戦略を通じて、属性オブジェクトのリンク理解を改善する。
論文 参考訳(メタデータ) (2024-12-10T03:41:20Z) - ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。
これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。
本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。
ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-18T20:31:38Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。