論文の概要: Defense-Prefix for Preventing Typographic Attacks on CLIP
- arxiv url: http://arxiv.org/abs/2304.04512v2
- Date: Sun, 13 Aug 2023 08:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 20:10:32.354625
- Title: Defense-Prefix for Preventing Typographic Attacks on CLIP
- Title(参考訳): クリップのタイポグラフィー攻撃防止のための防御プリフィックス
- Authors: Hiroki Azuma, Yusuke Matsui
- Abstract要約: 一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,クラス名の前にトークンを挿入して単語を堅牢にする「Defense-Prefix(DP)」を導入する。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 14.832208701208414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training models (VLPs) have exhibited revolutionary
improvements in various vision-language tasks. In VLP, some adversarial attacks
fool a model into false or absurd classifications. Previous studies addressed
these attacks by fine-tuning the model or changing its architecture. However,
these methods risk losing the original model's performance and are difficult to
apply to downstream tasks. In particular, their applicability to other tasks
has not been considered. In this study, we addressed the reduction of the
impact of typographic attacks on CLIP without changing the model parameters. To
achieve this, we expand the idea of ``prefix learning'' and introduce our
simple yet effective method: Defense-Prefix (DP), which inserts the DP token
before a class name to make words ``robust'' against typographic attacks. Our
method can be easily applied to downstream tasks, such as object detection,
because the proposed method is independent of the model parameters. Our method
significantly improves the accuracy of classification tasks for typographic
attack datasets, while maintaining the zero-shot capabilities of the model. In
addition, we leverage our proposed method for object detection, demonstrating
its high applicability and effectiveness. The codes and datasets are available
at https://github.com/azuma164/Defense-Prefix.
- Abstract(参考訳): 視覚言語事前学習モデル(VLP)は、様々な視覚言語タスクに革命的な改善をもたらした。
VLPでは、一部の敵対的攻撃は、モデルを偽りまたは不条理な分類に騙す。
以前の研究では、モデルを微調整したり、アーキテクチャを変更したりすることで、これらの攻撃に対処した。
しかし、これらの手法は元のモデルの性能を失う危険を冒し、下流のタスクに適用することは困難である。
特に、他のタスクへの適用性は考慮されていない。
本研究では,モデルパラメータを変更することなく,CLIPに対するタイポグラフィー攻撃の影響の低減について検討した。
これを実現するために,我々は 'prefix learning' というアイデアを拡張し,簡単な方法である Defense-Prefix (DP) を導入し,クラス名の前にDPトークンを挿入し,"`robust' という単語をタイポグラフィー攻撃に対して生成する。
提案手法はモデルパラメータに依存しないため,オブジェクト検出などの下流タスクにも容易に適用できる。
本手法は,モデルのゼロショット機能を維持しつつ,タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
さらに,提案手法をオブジェクト検出に適用し,高い適用性と有効性を示す。
コードとデータセットはhttps://github.com/azuma164/Defense-Prefix.orgで公開されている。
関連論文リスト
- Undermining Image and Text Classification Algorithms Using Adversarial Attacks [0.0]
本研究は,各種機械学習モデルを訓練し,GANとSMOTEを用いてテキスト分類モデルへの攻撃を目的とした追加データポイントを生成することにより,そのギャップを解消する。
実験の結果,分類モデルの重大な脆弱性が明らかとなった。特に,攻撃後の最上位のテキスト分類モデルの精度が20%低下し,顔認識精度が30%低下した。
論文 参考訳(メタデータ) (2024-11-03T18:44:28Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - A Plot is Worth a Thousand Words: Model Information Stealing Attacks via
Scientific Plots [14.998272283348152]
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。
我々は、モデル情報盗難攻撃、すなわちモデルの科学的プロットのための新しいサイドチャネルを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:57:34Z) - A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D
Models [3.9962751777898955]
ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者がターゲットとしている。
非連続的深層モデルは、いまだに敵対的な攻撃に対して頑健ではない。
本稿では,特徴を特定のマージン下に置くことによって予測を容易にする新しい目的/損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-08T20:51:43Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Towards Class-Oriented Poisoning Attacks Against Neural Networks [1.14219428942199]
機械学習システムに対する攻撃は、トレーニングデータセットに悪意のあるサンプルを意図的に注入することで、モデルのパフォーマンスを損なう。
そこで本研究では, 破損したモデルに対して, 2つの特定の予測を強制的に行うクラス指向中毒攻撃を提案する。
逆効果の最大化と、有毒なデータ生成の計算複雑性の低減を図るため、勾配に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T19:27:37Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。