論文の概要: Unlearning the Noisy Correspondence Makes CLIP More Robust
- arxiv url: http://arxiv.org/abs/2507.03434v1
- Date: Fri, 04 Jul 2025 09:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.734365
- Title: Unlearning the Noisy Correspondence Makes CLIP More Robust
- Title(参考訳): 騒々しい対応を学習してCLIPをよりロバストにする
- Authors: Haochen Han, Alex Jinpeng Wang, Peijun Ye, Fangming Liu,
- Abstract要約: ノイズ対応(NC)サンプルは視覚言語モデル(VLM)の性能を著しく損なう
我々は,学習した雑音の知識を忘れることによって,VLMの堅牢性を効果的に向上する雑音対応学習フレームワークであるNCUを提案する。
様々なダウンストリームタスクに対して,CLIPモデルを用いてアプローチを検証する。
- 参考スコア(独自算出の注目度): 13.619912296579402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The data appetite for Vision-Language Models (VLMs) has continuously scaled up from the early millions to billions today, which faces an untenable trade-off with data quality and inevitably introduces Noisy Correspondence (NC) samples. Undoubtedly, such semantically unrelated data significantly impairs the performance of VLMs. Previous efforts mainly address this challenge by estimating refined alignment for more precise guidance. However, such resource-intensive pipelines that train VLMs from scratch struggle to meet realistic data demands. In this paper, we present a brand new perspective that seeks to directly eliminate the harmful effects of NC in pre-trained VLMs. Specifically, we propose NCU, a Noisy Correspondence Unlearning fine-tuning framework that efficiently enhances VLMs' robustness by forgetting learned noisy knowledge. The key to NCU is learning the hardest negative information, which can provide explicit unlearning direction for both false positives and false negatives. Such twin goals unlearning process can be formalized into one unified optimal transport objective for fast fine-tuning. We validate our approach with the prevailing CLIP model over various downstream tasks. Remarkably, NCU surpasses the robust pre-trained method on zero-shot transfer while with lower computational overhead. The code will be released upon acceptance.
- Abstract(参考訳): VLM(Vision-Language Models)のデータ欲求は今日、数百万から数十億へと継続的に拡大している。
このような意味的無関係なデータは、間違いなくVLMの性能を著しく損なう。
これまでの取り組みは主に、より正確なガイダンスのために洗練されたアライメントを見積もることによって、この問題に対処する。
しかしながら、VLMをスクラッチからトレーニングするリソース集約パイプラインは、現実的なデータ要求を満たすのに苦労する。
本稿では,事前に訓練したVLMにおけるNCの有害な影響を直接排除する,新たな視点を提案する。
具体的には、学習した雑音の知識を忘れることにより、VLMの堅牢性を効率的に向上するノイズ対応未学習フレームワークであるNCUを提案する。
NCUの鍵は、最も難易度の高い負の情報を学ぶことであり、偽陽性と偽陰性の両方に対して明確な未学習の方向を提供することができる。
このような双対目標未学習プロセスは、高速な微調整のための統一された最適輸送目標に定式化することができる。
様々なダウンストリームタスクに対して,CLIPモデルを用いてアプローチを検証する。
興味深いことに、NCUはゼロショット転送において、計算オーバーヘッドを低くしながら、堅牢で事前訓練された手法を超越している。
コードは受理時にリリースされます。
関連論文リスト
- SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。