論文の概要: Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation Learning
- arxiv url: http://arxiv.org/abs/2503.23495v3
- Date: Thu, 10 Apr 2025 05:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:02.432678
- Title: Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation Learning
- Title(参考訳): CLIPへのシフト分割の埋め込み:VLMの表現学習における拡張の効果
- Authors: Ashim Dahal, Saydul Akbar Murad, Nick Rahimi,
- Abstract要約: ここでは,CLIPの埋め込みにおける9つの一般的な拡張手法の変遷を示す。
我々は,注目マップ,パッチ,エッジ,ディテール保存,コサイン類似性,L2距離,対距離,デンドログラムクラスタの類似性に基づく埋め込みシフトについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Understanding the representation shift on Vision Language Models like CLIP under different augmentations provides valuable insights on Mechanistic Interpretability. In this study, we show the shift on CLIP's embeddings on 9 common augmentation techniques: noise, blur, color jitter, scale and rotate, flip, elastic and perspective transforms, random brightness and contrast, and coarse dropout of pixel blocks. We scrutinize the embedding shifts under similarity on attention map, patch, edge, detail preservation, cosine similarity, L2 distance, pairwise distance and dendrogram clusters and provide qualitative analysis on sample images. Our findings suggest certain augmentations like noise, perspective transform and shift scaling have higher degree of drastic impact on embedding shift. This study provides a concrete foundation for future work on VLM's robustness for mechanical interpretation and adversarial data defense. The code implementation for this study can be found on \href{https://github.com/ashimdahal/clip-shift-analysis}{https://github.com/ashimdahal/clip-shift-analysis}.
- Abstract(参考訳): 異なる拡張の下でCLIPのようなビジョン言語モデルの表現シフトを理解することは、機械的解釈可能性に関する貴重な洞察を提供する。
本研究では,CLIPのノイズ,ぼかし,色ジッタ,スケール・ローテーション,フリップ,弾性・遠近変換,ランダムな明るさ・コントラスト,ピクセルブロックの粗いドロップアウトという,9つの一般的な拡張技術への埋め込みの変化を示す。
我々は,注目マップ,パッチ,エッジ,ディテール保存,コサイン類似性,L2距離,ペア距離,デンドログラムクラスタの類似性に基づく埋め込みシフトを精査し,サンプル画像の質的解析を行った。
以上の結果から,ノイズや視点変換,シフトスケーリングといった特定の拡張が,埋め込みシフトに大きく影響していることが示唆された。
本研究は,VLMの機械的解釈と対角的データ防衛に対する堅牢性に関する具体的な研究基盤を提供する。
この研究のコード実装は \href{https://github.com/ashimdahal/clip-shift-analysis}{https://github.com/ashimdahal/clip-shift-analysis} で見ることができる。
関連論文リスト
- AS-GCL: Asymmetric Spectral Augmentation on Graph Contrastive Learning [25.07818336162072]
グラフ・コントラシブ・ラーニング(GCL)は,グラフ構造化データの自己教師型学習における最前線として登場した。
グラフのコントラスト学習に非対称スペクトル拡張を取り入れたAS-GCLという新しいパラダイムを提案する。
提案手法は各コンポーネントに大幅な拡張をもたらす。
論文 参考訳(メタデータ) (2025-02-19T08:22:57Z) - Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Coarse-to-Fine Contrastive Learning on Graphs [38.41992365090377]
ノード表現を自己管理的に学習するために、さまざまなグラフ拡張戦略が採用されている。
我々は,異なるノード間の識別情報を確実に維持するために,自己評価パラダイムを導入する。
各種ベンチマークデータセットの実験結果から,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-12-13T08:17:20Z) - Contrastive View Design Strategies to Enhance Robustness to Domain
Shifts in Downstream Object Detection [37.06088084592779]
コントラスト学習とドメイン外オブジェクト検出の実証的研究を行う。
本稿では,外見シフトやコンテキストシフトのシナリオにおいて,ビューを拡大し,堅牢性を高める戦略を提案する。
我々の結果と洞察は、対照的な学習における視点の選択を通じて、堅牢性を確保する方法を示している。
論文 参考訳(メタデータ) (2022-12-09T00:34:50Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。
本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-26T17:00:35Z) - ExCon: Explanation-driven Supervised Contrastive Learning for Image
Classification [12.109442912963969]
本稿では,サリエンシに基づく説明手法を活用して,コンテント保存型マスク強化によるコントラスト学習を提案する。
提案手法は, 近距離画像の埋め込みに類似した内容と説明を与えるという2つの目的を, 批判的に果たすものである。
ExConは、分類、説明品質、対向ロバスト性、および分布シフトの文脈におけるモデルの確率的予測のキャリブレーションの観点から、バニラ指導によるコントラスト学習より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:15:26Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。