Fugu-MT 論文翻訳(概要): Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation Learning

論文の概要: Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation Learning

arxiv url: http://arxiv.org/abs/2503.23495v3
Date: Thu, 10 Apr 2025 05:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-11 15:12:49.485106
Title: Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation Learning
Title（参考訳）: CLIPへのシフト分割の埋め込み:VLMの表現学習における拡張の効果
Authors: Ashim Dahal, Saydul Akbar Murad, Nick Rahimi,
Abstract要約: ここでは,CLIPの埋め込みにおける9つの一般的な拡張手法の変遷を示す。我々は,注目マップ,パッチ,エッジ,ディテール保存,コサイン類似性,L2距離,対距離,デンドログラムクラスタの類似性に基づく埋め込みシフトについて検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the representation shift on Vision Language Models like CLIP under different augmentations provides valuable insights on Mechanistic Interpretability. In this study, we show the shift on CLIP's embeddings on 9 common augmentation techniques: noise, blur, color jitter, scale and rotate, flip, elastic and perspective transforms, random brightness and contrast, and coarse dropout of pixel blocks. We scrutinize the embedding shifts under similarity on attention map, patch, edge, detail preservation, cosine similarity, L2 distance, pairwise distance and dendrogram clusters and provide qualitative analysis on sample images. Our findings suggest certain augmentations like noise, perspective transform and shift scaling have higher degree of drastic impact on embedding shift. This study provides a concrete foundation for future work on VLM's robustness for mechanical interpretation and adversarial data defense. The code implementation for this study can be found on \href{https://github.com/ashimdahal/clip-shift-analysis}{https://github.com/ashimdahal/clip-shift-analysis}.
Abstract（参考訳）: 異なる拡張の下でCLIPのようなビジョン言語モデルの表現シフトを理解することは、機械的解釈可能性に関する貴重な洞察を提供する。本研究では,CLIPのノイズ,ぼかし,色ジッタ,スケール・ローテーション,フリップ,弾性・遠近変換,ランダムな明るさ・コントラスト,ピクセルブロックの粗いドロップアウトという,9つの一般的な拡張技術への埋め込みの変化を示す。我々は,注目マップ,パッチ,エッジ,ディテール保存,コサイン類似性,L2距離,ペア距離,デンドログラムクラスタの類似性に基づく埋め込みシフトを精査し,サンプル画像の質的解析を行った。以上の結果から,ノイズや視点変換,シフトスケーリングといった特定の拡張が,埋め込みシフトに大きく影響していることが示唆された。本研究は,VLMの機械的解釈と対角的データ防衛に対する堅牢性に関する具体的な研究基盤を提供する。この研究のコード実装は \href{https://github.com/ashimdahal/clip-shift-analysis}{https://github.com/ashimdahal/clip-shift-analysis} で見ることができる。

関連論文リスト

AS-GCL: Asymmetric Spectral Augmentation on Graph Contrastive Learning [25.07818336162072]
グラフ・コントラシブ・ラーニング(GCL)は,グラフ構造化データの自己教師型学習における最前線として登場した。グラフのコントラスト学習に非対称スペクトル拡張を取り入れたAS-GCLという新しいパラダイムを提案する。提案手法は各コンポーネントに大幅な拡張をもたらす。
論文参考訳（メタデータ） (2025-02-19T08:22:57Z)
Understanding the Role of Equivariance in Self-supervised Learning [51.56331245499712]
同変自己教師学習(E-SSL)は、拡張に注意する機能を学ぶ。我々は、同変タスクと分類タスクの相乗効果を生成するE-SSLにおける重要な説明アウト効果を同定する。 E-SSLの実用設計の原則をいくつか明らかにする。
論文参考訳（メタデータ） (2024-11-10T16:09:47Z)
KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文参考訳（メタデータ） (2024-10-14T07:39:30Z)
Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文参考訳（メタデータ） (2024-09-25T11:55:27Z)
Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文参考訳（メタデータ） (2024-09-11T14:36:24Z)
Don't Judge by the Look: Towards Motion Coherent Video Representation [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ理解のためのデータ拡張手法である。 MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文参考訳（メタデータ） (2024-03-14T15:53:04Z)
Augmentation-aware Self-supervised Learning with Conditioned Projector [6.720605329045581]
自己教師付き学習(SSL)は、ラベルのないデータから学習するための強力な技術である。本稿では,プロジェクタネットワークを改良し,表現空間の特徴に対する感受性を高めることを提案する。提案手法は条件拡張型自己教師学習(CASSLE)と呼ばれ,通常の共同埋め込み型SSL手法に直接適用可能である。
論文参考訳（メタデータ） (2023-05-31T12:24:06Z)
MA-GCL: Model Augmentation Tricks for Graph Contrastive Learning [41.963242524220654]
グラフコントラスト学習(GCL)のための3つの簡易実装モデル拡張手法を提案する。具体的には,GCLに対して,非対称,ランダム,シャッフルという,実装が容易なモデル拡張トリックを3つ提示する。実験の結果,MA-GCLはノード分類ベンチマークで最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2022-12-14T05:04:10Z)
Coarse-to-Fine Contrastive Learning on Graphs [38.41992365090377]
ノード表現を自己管理的に学習するために、さまざまなグラフ拡張戦略が採用されている。我々は,異なるノード間の識別情報を確実に維持するために,自己評価パラダイムを導入する。各種ベンチマークデータセットの実験結果から,提案アルゴリズムの有効性を検証した。
論文参考訳（メタデータ） (2022-12-13T08:17:20Z)
Contrastive View Design Strategies to Enhance Robustness to Domain Shifts in Downstream Object Detection [37.06088084592779]
コントラスト学習とドメイン外オブジェクト検出の実証的研究を行う。本稿では,外見シフトやコンテキストシフトのシナリオにおいて,ビューを拡大し,堅牢性を高める戦略を提案する。我々の結果と洞察は、対照的な学習における視点の選択を通じて、堅牢性を確保する方法を示している。
論文参考訳（メタデータ） (2022-12-09T00:34:50Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。 2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文参考訳（メタデータ） (2022-07-24T23:50:52Z)
On Higher Adversarial Susceptibility of Contrastive Self-Supervised Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。 2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。 CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文参考訳（メタデータ） (2022-07-22T03:49:50Z)
Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文参考訳（メタデータ） (2022-06-26T17:00:35Z)
Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:02:42Z)
Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文参考訳（メタデータ） (2021-07-30T19:24:07Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
Shift Invariance Can Reduce Adversarial Robustness [20.199887291186364]
シフト不変性は、分類のパフォーマンスを向上させるCNNの重要な特性です。円偏移に対する不変性は、敵の攻撃に対する感受性を高めることも示している。
論文参考訳（メタデータ） (2021-03-03T21:27:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。