論文の概要: Robustness in Both Domains: CLIP Needs a Robust Text Encoder
- arxiv url: http://arxiv.org/abs/2506.03355v1
- Date: Tue, 03 Jun 2025 19:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.03212
- Title: Robustness in Both Domains: CLIP Needs a Robust Text Encoder
- Title(参考訳): 両方のドメインにおけるロバスト性:CLIPはロバストテキストエンコーダを必要とする
- Authors: Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher,
- Abstract要約: LEAFはテキストドメインの効率の良い逆方向の微調整手法であり、大きなCLIPモデルにスケールできる。
我々のモデルは、ロバスト画像エンコーダによる視力性能を維持しながら、テキスト領域におけるゼロショット対角精度を著しく向上させる。
我々は,ロバストテキストエンコーダが直接最適化による埋め込みから入力テキストの再構築を容易にすることを示す。
- 参考スコア(独自算出の注目度): 65.42617172921975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial input attacks can cause a significant shift of CLIP embeddings. This can affect the downstream robustness of models incorporating CLIP in the pipeline, such as text-to-image generative models or large vision language models. While some efforts have been done towards making the CLIP image encoders robust, the robustness of text encoders remains unexplored. In this work, we cover this gap in the literature. We propose LEAF: an efficient adversarial finetuning method for the text domain, with the ability to scale to large CLIP models. Our models significantly improve the zero-shot adversarial accuracy in the text domain, while maintaining the vision performance provided by robust image encoders. When combined with text-to-image diffusion models, we can improve the generation quality under adversarial noise. When employing our robust CLIP encoders in multimodal retrieval tasks, we improve the recall under adversarial noise over standard CLIP models. Finally, we show that robust text encoders facilitate better reconstruction of input text from its embedding via direct optimization.
- Abstract(参考訳): 逆入力攻撃はCLIP埋め込みの大幅なシフトを引き起こす可能性がある。
これは、CLIPをパイプラインに組み込んだモデル、例えばテキストから画像への生成モデルや大きなビジョン言語モデル、のダウンストリームロバスト性に影響を与える可能性がある。
CLIPイメージエンコーダを堅牢化するための取り組みはいくつか行われているが、テキストエンコーダの堅牢性はまだ未検討である。
本稿では、この文学のギャップを取り上げる。
LEAFはテキストドメインに対して,大規模CLIPモデルにスケール可能な,効率的な逆方向の微調整手法である。
我々のモデルは、ロバスト画像エンコーダによる視力性能を維持しながら、テキスト領域におけるゼロショット対角精度を著しく向上させる。
テキスト・画像拡散モデルと組み合わせることで、対向雑音下での生成品質を向上させることができる。
マルチモーダル検索タスクにロバストなCLIPエンコーダを使用する場合、標準的なCLIPモデルよりも逆ノイズ下でのリコールを改善する。
最後に、ロバストテキストエンコーダは、直接最適化による埋め込みから入力テキストの再構築をより容易にすることを示す。
関連論文リスト
- Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Improving Compositional Attribute Binding in Text-to-Image Generative Models via Enhanced Text Embeddings [46.723653095494896]
テキストから画像への生成モデルにおける合成属性の結合障害について検討する。
CLIPテキストエンコーダによる不完全なテキストコンディショニングは、これらのモデルが高忠実な構成シーンを生成することができない主な理由の1つであることを示す。
本研究の主目的は,モデルのFIDスコアを損なうことなく,構成上の大幅な改善が達成できることである。
論文 参考訳(メタデータ) (2024-06-12T03:21:34Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。