論文の概要: Captured by Captions: On Memorization and its Mitigation in CLIP Models
- arxiv url: http://arxiv.org/abs/2502.07830v1
- Date: Tue, 11 Feb 2025 00:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:58.745872
- Title: Captured by Captions: On Memorization and its Mitigation in CLIP Models
- Title(参考訳): キャプションによるキャプチャ:CLIPモデルにおけるメモリ化とその緩和について
- Authors: Wenhao Wang, Adam Dziedzic, Grace C. Kim, Michael Backes, Franziska Boenisch,
- Abstract要約: 本稿では,CLIPにおける記憶の形式的定義を提案し,それをCLIPモデルにおける記憶の定量化に利用する。
以上の結果から,CLIPの記憶行動は,指導的パラダイムと自己監督的パラダイムの中間に位置することが示唆された。
テキストエンコーダは画像エンコーダよりも暗記に寄与しており、緩和戦略はテキスト領域に焦点を当てるべきである。
- 参考スコア(独自算出の注目度): 23.005901198213966
- License:
- Abstract: Multi-modal models, such as CLIP, have demonstrated strong performance in aligning visual and textual representations, excelling in tasks like image retrieval and zero-shot classification. Despite this success, the mechanisms by which these models utilize training data, particularly the role of memorization, remain unclear. In uni-modal models, both supervised and self-supervised, memorization has been shown to be essential for generalization. However, it is not well understood how these findings would apply to CLIP, which incorporates elements from both supervised learning via captions that provide a supervisory signal similar to labels, and from self-supervised learning via the contrastive objective. To bridge this gap in understanding, we propose a formal definition of memorization in CLIP (CLIPMem) and use it to quantify memorization in CLIP models. Our results indicate that CLIP's memorization behavior falls between the supervised and self-supervised paradigms, with "mis-captioned" samples exhibiting highest levels of memorization. Additionally, we find that the text encoder contributes more to memorization than the image encoder, suggesting that mitigation strategies should focus on the text domain. Building on these insights, we propose multiple strategies to reduce memorization while at the same time improving utility--something that had not been shown before for traditional learning paradigms where reducing memorization typically results in utility decrease.
- Abstract(参考訳): CLIPのようなマルチモーダルモデルは、画像検索やゼロショット分類といったタスクにおいて優れた視覚的およびテキスト的表現の整合性を示す。
この成功にもかかわらず、これらのモデルがトレーニングデータ、特に記憶の役割を利用するメカニズムは未だ不明である。
ユニモーダルモデルでは、教師付きおよび自己教師型の両方において、記憶は一般化に不可欠であることが示されている。
しかし、これらの発見がCLIPにどのように適用されるかはよく分かっていない。これはラベルに似た監督信号を提供するキャプションによる教師付き学習と、対照的な目的による自己監督型学習の両方から要素を取り入れている。
このような理解のギャップを埋めるために,CLIP(CLIPMem)における記憶の形式的定義を提案し,それをCLIPモデルにおける記憶の定量化に利用する。
以上の結果から,CLIPの記憶行動は,指導的パラダイムと自己監督的パラダイムの中間に位置することが示唆された。
さらに,テキストエンコーダは画像エンコーダよりも暗記に寄与し,緩和戦略はテキスト領域に重点を置くべきであることを示唆している。
これらの知見に基づいて,従来の学習パラダイムにおいて,暗記を減らし,実用性の向上を図りつつ,暗記を減らそうとする複数の戦略を提案する。
関連論文リスト
- Analyzing Memorization in Large Language Models through the Lens of Model Attribution [11.295483963637217]
大規模言語モデル(LLM)は現代のアプリケーションでは一般的であるが、しばしばトレーニングデータを記憶し、プライバシー侵害や著作権問題を引き起こす。
異なる層におけるアテンションモジュールが,その記憶と一般化に与える影響を分析することによって,建築用レンズからの記憶について検討する。
論文 参考訳(メタデータ) (2025-01-09T09:00:32Z) - Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。
従来の暗記検出方法は出力確率や損失関数に依存している。
LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T00:17:43Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Memorization in Self-Supervised Learning Improves Downstream Generalization [49.42010047574022]
自己教師付き学習(SSL)は、ラベルのないデータで純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSL内での暗記を定義するためのフレームワークであるSSLMemを提案する。
論文 参考訳(メタデータ) (2024-01-19T11:32:47Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。