Fugu-MT 論文翻訳(概要): Interventional Contrastive Learning with Meta Semantic Regularizer

論文の概要: Interventional Contrastive Learning with Meta Semantic Regularizer

arxiv url: http://arxiv.org/abs/2206.14702v1
Date: Wed, 29 Jun 2022 15:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-30 20:28:23.278200
Title: Interventional Contrastive Learning with Meta Semantic Regularizer
Title（参考訳）: メタセマンティック正規化器を用いたインターベンショナルコントラスト学習
Authors: Wenwen Qiang, Jiangmeng Li, Changwen Zheng, Bing Su, Hui Xiong
Abstract要約: コントラスト学習(CL)に基づく自己教師型学習モデルでは,視覚的表現を相互に学習する。 CLモデルがフルイメージでトレーニングされる場合、フルイメージでテストされるパフォーマンスは、フォアグラウンドのモデルよりも優れている。 CLモデルが前景領域で訓練された場合、全画像でテストされた性能は前景領域よりも悪い。
参考スコア（独自算出の注目度）: 28.708395209321846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive learning (CL)-based self-supervised learning models learn visual representations in a pairwise manner. Although the prevailing CL model has achieved great progress, in this paper, we uncover an ever-overlooked phenomenon: When the CL model is trained with full images, the performance tested in full images is better than that in foreground areas; when the CL model is trained with foreground areas, the performance tested in full images is worse than that in foreground areas. This observation reveals that backgrounds in images may interfere with the model learning semantic information and their influence has not been fully eliminated. To tackle this issue, we build a Structural Causal Model (SCM) to model the background as a confounder. We propose a backdoor adjustment-based regularization method, namely Interventional Contrastive Learning with Meta Semantic Regularizer (ICL-MSR), to perform causal intervention towards the proposed SCM. ICL-MSR can be incorporated into any existing CL methods to alleviate background distractions from representation learning. Theoretically, we prove that ICL-MSR achieves a tighter error bound. Empirically, our experiments on multiple benchmark datasets demonstrate that ICL-MSR is able to improve the performances of different state-of-the-art CL methods.
Abstract（参考訳）: コントラスト学習(CL)に基づく自己教師型学習モデルでは、視覚表現を相互に学習する。本稿では,clモデルがフルイメージでトレーニングされた場合,フルイメージでテストされた性能が前景領域よりも優れている場合,clモデルが前景領域でトレーニングされた場合,全画像でテストされたパフォーマンスが前景領域よりも悪い場合,より見過ごされている現象を明らかにする。この観察により,画像の背景がモデル学習の意味情報に干渉し,その影響を完全に排除していないことが明らかになった。この問題に取り組むため、私たちは共起者としての背景をモデル化する構造的因果モデル(scm)を構築します。提案するSCMに対して因果的介入を行うために,バックドア調整に基づく規則化手法であるICL-MSR(Interventional Contrastive Learning with Meta Semantic Regularizer)を提案する。 ICL-MSRは、既存のCLメソッドに組み込んで、表現学習からのバックグラウンドの障害を軽減することができる。理論的には、ICL-MSRはより厳密な誤差境界を達成する。実験により,ICL-MSRは各種の最先端CL法の性能を向上させることができることを示した。

関連論文リスト

Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文参考訳（メタデータ） (2025-08-05T05:30:42Z)
Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。 CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文参考訳（メタデータ） (2025-03-16T12:34:07Z)
What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文参考訳（メタデータ） (2025-01-09T09:45:05Z)
Are Conditional Latent Diffusion Models Effective for Image Restoration? [3.015770349327888]
CLDMは高いレベルの意味的相関を捉えるのに優れており、空間条件付きテキスト・ツー・イメージ生成のようなタスクに効果的である。画像の知覚品質を高めることが目的であるIRにおいて、これらのモデルは劣化した画像と地上の真実画像の関係をモデル化することが困難である。その結果, CLDMのスケーリングの利点にもかかわらず, 特に劣化の少ない場合には, 高い歪みや意味的偏差が生じることが明らかとなった。
論文参考訳（メタデータ） (2024-12-12T14:49:55Z)
Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。 MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文参考訳（メタデータ） (2024-08-29T23:22:40Z)
Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文参考訳（メタデータ） (2024-07-19T12:22:32Z)
A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文参考訳（メタデータ） (2024-03-04T17:24:03Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文参考訳（メタデータ） (2023-11-13T21:42:38Z)
Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文参考訳（メタデータ） (2023-10-02T06:41:30Z)
Continual Vision-Language Representation Learning with Off-Diagonal Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文参考訳（メタデータ） (2023-05-11T08:04:46Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Learning Deep Representations via Contrastive Learning for Instance Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文参考訳（メタデータ） (2022-09-28T04:36:34Z)
Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。 CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。 CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文参考訳（メタデータ） (2022-06-02T19:05:13Z)
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。 ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文参考訳（メタデータ） (2022-04-12T17:55:38Z)
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval [19.2650103482509]
CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
論文参考訳（メタデータ） (2022-01-08T06:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。