論文の概要: FoCLIP: A Feature-Space Misalignment Framework for CLIP-Based Image Manipulation and Detection
- arxiv url: http://arxiv.org/abs/2511.06947v1
- Date: Mon, 10 Nov 2025 10:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.207597
- Title: FoCLIP: A Feature-Space Misalignment Framework for CLIP-Based Image Manipulation and Detection
- Title(参考訳): FoCLIP: CLIPベースの画像操作と検出のための機能空間の修正フレームワーク
- Authors: Yulin Chen, Zeyuan Wang, Tianyuan Yu, Yingmei Wei, Liang Bai,
- Abstract要約: 我々は,CLIPベースの画像品質指標を騙す機能空間の誤調整フレームワークである textbfFoCLIP を提案する。
FoCLIPは3つの重要なコンポーネントを統合して、ばかげた例を構築する。
10の芸術的傑作プロンプトとImageNetサブセットの実験では、最適化されたイメージがCLIPscoreで大幅に改善できることが示されている。
- 参考スコア(独自算出の注目度): 25.808813569367135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The well-aligned attribute of CLIP-based models enables its effective application like CLIPscore as a widely adopted image quality assessment metric. However, such a CLIP-based metric is vulnerable for its delicate multimodal alignment. In this work, we propose \textbf{FoCLIP}, a feature-space misalignment framework for fooling CLIP-based image quality metric. Based on the stochastic gradient descent technique, FoCLIP integrates three key components to construct fooling examples: feature alignment as the core module to reduce image-text modality gaps, the score distribution balance module and pixel-guard regularization, which collectively optimize multimodal output equilibrium between CLIPscore performance and image quality. Such a design can be engineered to maximize the CLIPscore predictions across diverse input prompts, despite exhibiting either visual unrecognizability or semantic incongruence with the corresponding adversarial prompts from human perceptual perspectives. Experiments on ten artistic masterpiece prompts and ImageNet subsets demonstrate that optimized images can achieve significant improvement in CLIPscore while preserving high visual fidelity. In addition, we found that grayscale conversion induces significant feature degradation in fooling images, exhibiting noticeable CLIPscore reduction while preserving statistical consistency with original images. Inspired by this phenomenon, we propose a color channel sensitivity-driven tampering detection mechanism that achieves 91% accuracy on standard benchmarks. In conclusion, this work establishes a practical pathway for feature misalignment in CLIP-based multimodal systems and the corresponding defense method.
- Abstract(参考訳): CLIPベースのモデルの整合性の良い属性は、CLIPscoreのような効果的なアプリケーションを、広く採用されている画像品質評価指標として利用することができる。
しかし、このようなCLIPベースの計量は、繊細なマルチモーダルアライメントに対して脆弱である。
本稿では,CLIPベースの画像品質指標を騙す機能空間の誤調整フレームワークである \textbf{FoCLIP} を提案する。
確率勾配降下法に基づき、FoCLIPは3つの重要な要素を統合して、画像-テキストのモダリティギャップを減らすためのコアモジュールとしての特徴アライメント、スコア分散バランスモジュール、およびCLIPスコア性能と画像品質のマルチモーダル出力平衡を総合的に最適化するピクセルガード正規化という、愚かな例を構築する。
このような設計は、人間の知覚的視点から見れば、視覚的不認識性または意味的不一致を示すにもかかわらず、様々な入力プロンプトにわたってCLIPscore予測を最大化するために設計することができる。
10の芸術的傑作プロンプトとImageNetサブセットの実験により、最適化されたイメージは、高い視覚的忠実性を維持しながら、CLIPscoreを大幅に改善できることを示した。
また,従来の画像との統計的整合性を維持しつつ,CLIPscoreの低下を顕著に示し,グレースケール変換により画像の劣化が顕著であることがわかった。
この現象に触発されて、標準ベンチマークで91%の精度を実現するカラーチャネル感度駆動型改ざん検出機構を提案する。
結論として,本研究は,CLIPに基づくマルチモーダルシステムとそれに対応する防御方法において,機能的不整合の実践的経路を確立するものである。
関連論文リスト
- Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP [18.25854559825818]
比較言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法を提案する。
具体的には,エンコーダを用いて入力画像からマルチスケール特徴を抽出し,ボトムアップ型マルチスケールクロスアテンションモジュールを導入する。
6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが画像固有の品質の表現を生成することができる。
論文 参考訳(メタデータ) (2025-06-22T09:56:57Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。