論文の概要: Interventional Contrastive Learning with Meta Semantic Regularizer
- arxiv url: http://arxiv.org/abs/2206.14702v1
- Date: Wed, 29 Jun 2022 15:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:28:23.278200
- Title: Interventional Contrastive Learning with Meta Semantic Regularizer
- Title(参考訳): メタセマンティック正規化器を用いたインターベンショナルコントラスト学習
- Authors: Wenwen Qiang, Jiangmeng Li, Changwen Zheng, Bing Su, Hui Xiong
- Abstract要約: コントラスト学習(CL)に基づく自己教師型学習モデルでは,視覚的表現を相互に学習する。
CLモデルがフルイメージでトレーニングされる場合、フルイメージでテストされるパフォーマンスは、フォアグラウンドのモデルよりも優れている。
CLモデルが前景領域で訓練された場合、全画像でテストされた性能は前景領域よりも悪い。
- 参考スコア(独自算出の注目度): 28.708395209321846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning (CL)-based self-supervised learning models learn visual
representations in a pairwise manner. Although the prevailing CL model has
achieved great progress, in this paper, we uncover an ever-overlooked
phenomenon: When the CL model is trained with full images, the performance
tested in full images is better than that in foreground areas; when the CL
model is trained with foreground areas, the performance tested in full images
is worse than that in foreground areas. This observation reveals that
backgrounds in images may interfere with the model learning semantic
information and their influence has not been fully eliminated. To tackle this
issue, we build a Structural Causal Model (SCM) to model the background as a
confounder. We propose a backdoor adjustment-based regularization method,
namely Interventional Contrastive Learning with Meta Semantic Regularizer
(ICL-MSR), to perform causal intervention towards the proposed SCM. ICL-MSR can
be incorporated into any existing CL methods to alleviate background
distractions from representation learning. Theoretically, we prove that ICL-MSR
achieves a tighter error bound. Empirically, our experiments on multiple
benchmark datasets demonstrate that ICL-MSR is able to improve the performances
of different state-of-the-art CL methods.
- Abstract(参考訳): コントラスト学習(CL)に基づく自己教師型学習モデルでは、視覚表現を相互に学習する。
本稿では,clモデルがフルイメージでトレーニングされた場合,フルイメージでテストされた性能が前景領域よりも優れている場合,clモデルが前景領域でトレーニングされた場合,全画像でテストされたパフォーマンスが前景領域よりも悪い場合,より見過ごされている現象を明らかにする。
この観察により,画像の背景がモデル学習の意味情報に干渉し,その影響を完全に排除していないことが明らかになった。
この問題に取り組むため、私たちは共起者としての背景をモデル化する構造的因果モデル(scm)を構築します。
提案するSCMに対して因果的介入を行うために,バックドア調整に基づく規則化手法であるICL-MSR(Interventional Contrastive Learning with Meta Semantic Regularizer)を提案する。
ICL-MSRは、既存のCLメソッドに組み込んで、表現学習からのバックグラウンドの障害を軽減することができる。
理論的には、ICL-MSRはより厳密な誤差境界を達成する。
実験により,ICL-MSRは各種の最先端CL法の性能を向上させることができることを示した。
関連論文リスト
- Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Continual Facial Expression Recognition: A Benchmark [3.181579197770883]
本研究は、FERタスク上でのCL技術の評価を行うConFER(Continuous Facial Expression Recognition)ベンチマークを示す。
これは、CK+、RAF-DB、AffectNetといった一般的なFERデータセットに対するCLベースのアプローチの比較分析である。
CL技術は、異なる学習環境下で、複数のデータセットで最先端(SOTA)パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-05-10T20:35:38Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval [19.2650103482509]
CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。
私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。
本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
論文 参考訳(メタデータ) (2022-01-08T06:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。