論文の概要: CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification
- arxiv url: http://arxiv.org/abs/2405.03660v1
- Date: Mon, 6 May 2024 17:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 12:46:34.805206
- Title: CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification
- Title(参考訳): CICA: ゼロショット文書画像分類のためのコンテントインジェクトコントラストアライメント
- Authors: Sankalp Sinha, Muhammad Saif Ullah Khan, Talha Uddin Sheikh, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: ゼロショット学習(ZSL)および一般化ゼロショット学習(GZSL)設定において、包括的な文書画像分類分析を行う。
CICA(ki-ka)はCLIPのゼロショット学習能力を向上するフレームワークである。
我々のモジュールは、CLIPのZSLトップ-1精度を6.7%改善し、GZSLハーモニック平均はRVL-CDIPデータセットで24%向上した。
- 参考スコア(独自算出の注目度): 11.225067563482169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot learning has been extensively investigated in the broader field of visual recognition, attracting significant interest recently. However, the current work on zero-shot learning in document image classification remains scarce. The existing studies either focus exclusively on zero-shot inference, or their evaluation does not align with the established criteria of zero-shot evaluation in the visual recognition domain. We provide a comprehensive document image classification analysis in Zero-Shot Learning (ZSL) and Generalized Zero-Shot Learning (GZSL) settings to address this gap. Our methodology and evaluation align with the established practices of this domain. Additionally, we propose zero-shot splits for the RVL-CDIP dataset. Furthermore, we introduce CICA (pronounced 'ki-ka'), a framework that enhances the zero-shot learning capabilities of CLIP. CICA consists of a novel 'content module' designed to leverage any generic document-related textual information. The discriminative features extracted by this module are aligned with CLIP's text and image features using a novel 'coupled-contrastive' loss. Our module improves CLIP's ZSL top-1 accuracy by 6.7% and GZSL harmonic mean by 24% on the RVL-CDIP dataset. Our module is lightweight and adds only 3.3% more parameters to CLIP. Our work sets the direction for future research in zero-shot document classification.
- Abstract(参考訳): ゼロショット学習は視覚認識の幅広い分野で広く研究されており、近年は大きな関心を集めている。
しかし、文書画像分類におけるゼロショット学習に関する現在の研究はほとんど残っていない。
既存の研究では、ゼロショット推論のみに焦点が当てられているか、あるいはその評価は、認識領域におけるゼロショット評価の確立された基準と一致しない。
我々は、ZSL(Zero-Shot Learning)とGZSL(Generalized Zero-Shot Learning)の設定において、このギャップに対処するための包括的な文書画像分類分析を提供する。
我々の方法論と評価は、この領域の確立した実践と一致している。
さらに,RVL-CDIPデータセットに対してゼロショット分割を提案する。
さらに,CLIPのゼロショット学習能力を高めるフレームワークであるCICA(ki-ka)についても紹介する。
CICAは、汎用文書関連テキスト情報を利用するように設計された新しい「コンテンツモジュール」で構成されている。
このモジュールによって抽出された差別的特徴は、CLIPのテキストと画像の特徴と整合している。
我々のモジュールは、CLIPのZSLトップ-1精度を6.7%改善し、GZSLハーモニック平均はRVL-CDIPデータセットで24%向上した。
私たちのモジュールは軽量で、CLIPにパラメータを3.3%追加するだけであります。
本研究は,ゼロショット文書分類における今後の研究の方向性を定めている。
関連論文リスト
- Modeling Caption Diversity in Contrastive Vision-Language Pretraining [48.7603274197994]
画像にマッチするキャプションの多様性をモデル化したLlip, Latent Language Image Pretrainingを導入する。
Llipの視覚エンコーダは、テキストから派生した情報を条件付けして最終的な表現に混合された視覚的特徴のセットを出力する。
Llipは大規模エンコーダでも,CLIPやSigLIPのような非コンテクスト化されたベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-30T01:19:18Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [12.872308743619403]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Zero-Shot Learning from scratch (ZFS): leveraging local compositional
representations [25.449244103599106]
ゼロショット分類は、訓練中にターゲットクラスからインスタンスが見えないような一般化タスクである。
テスト時間転送を可能にするために、各クラスは、属性やテキスト記述の形式で、意味情報で注釈付けされる。
イメージベンチマークで最高の絶対性能を達成するアプローチは、Imagenetで事前訓練されたエンコーダから抽出された機能に依存している。
我々はZFS(Zero-Shot Learning from scratch)を提案し、他のデータセットで微調整されたエンコーダの使用を明示的に禁止する。
論文 参考訳(メタデータ) (2020-10-22T23:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。