論文の概要: Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
- arxiv url: http://arxiv.org/abs/2505.22943v1
- Date: Wed, 28 May 2025 23:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.587142
- Title: Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
- Title(参考訳): LLMはCLIPを認識できるか? テキスト更新による事前学習マルチモーダル表現の逆合成性のベンチマーク
- Authors: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim,
- Abstract要約: 偽テキストのサンプルを生成するために、MAC(Multimodal Adversarial Compositionality)を導入する。
我々は、サンプルワイド攻撃の成功率とグループワイドエントロピーに基づく多様性を両立させて評価した。
Llama-3.1-8Bのようなより小さな言語モデルを用いて、我々の手法は構成上の脆弱性を明らかにする上で優れた性能を示す。
- 参考スコア(独自算出の注目度): 37.65554922794508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.
- Abstract(参考訳): 事前訓練されたマルチモーダル表現(例えば、CLIP)は印象的な能力を示すが、構成上の重大な脆弱性が反直感的判断につながる。
我々は,大規模な言語モデル(LLM)を利用して,これらの脆弱性をさまざまなモダリティにわたって悪用する偽テキストサンプルを生成するベンチマークであるMultimodal Adversarial Compositionality (MAC)を導入し,サンプルワイドアタック成功率とグループワイドエントロピーに基づく多様性の両方を通じて評価する。
ゼロショット法を改善するために,多様性促進フィルタリングによるリジェクションサンプリングの微調整を活用する自己学習手法を提案し,攻撃成功率とサンプル多様性の両立を図った。
Llama-3.1-8Bのようなより小さな言語モデルを用いて、画像、ビデオ、オーディオを含む様々なマルチモーダル表現にまたがる構成上の脆弱性を明らかにする上で、優れた性能を示す。
関連論文リスト
- Enhancing Adversarial Robustness of Vision Language Models via Adversarial Mixture Prompt Tuning [14.714776642137247]
Adversarial Mixture Prompt Tuning (AMPT)は、混合テキストプロンプトを学習して、より堅牢なテキスト機能を得る。
一連の実験により,本手法は最先端手法よりも高い対角性が得られることが示された。
論文 参考訳(メタデータ) (2025-05-23T06:04:15Z) - Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs [28.20725794099928]
下流の多様なタスクに対する差別表現を学習する新しいフレームワークであるUniMEを紹介する。
最初の段階では、強力なLLMベースの教師モデルからテキスト識別的知識蒸留を行う。
第2段階では、識別表現学習をさらに進めるために、強陰性強化命令チューニングを導入する。
論文 参考訳(メタデータ) (2025-04-24T10:51:52Z) - Robust image classification with multi-modal large language models [4.709926629434273]
逆の例では、ディープニューラルネットワークが不正確な予測を高い信頼性で行う可能性がある。
これらの脆弱性を軽減するために、事前にモデルを強化するために、敵の訓練と検出に基づく防御が提案されている。
本稿では,これらの防衛を多モード情報と組み合わせ,補完する新しい防衛手法であるMultiShieldを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:49:25Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。