論文の概要: On the Adversarial Robustness of Multi-Modal Foundation Models
- arxiv url: http://arxiv.org/abs/2308.10741v1
- Date: Mon, 21 Aug 2023 14:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:08:35.366437
- Title: On the Adversarial Robustness of Multi-Modal Foundation Models
- Title(参考訳): マルチモーダル基礎モデルの逆ロバスト性について
- Authors: Christian Schlarmann and Matthias Hein
- Abstract要約: マルチモーダル基盤モデルのキャプション出力を変更するために、悪意のあるコンテンツプロバイダが画像に対する認識不能な攻撃を使用できることを示す。
敵攻撃に対する対策は、デプロイされたマルチモーダル・ファンデーション・モデルによって使用されるべきである。
- 参考スコア(独自算出の注目度): 43.19488721504591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal foundation models combining vision and language models such as
Flamingo or GPT-4 have recently gained enormous interest. Alignment of
foundation models is used to prevent models from providing toxic or harmful
output. While malicious users have successfully tried to jailbreak foundation
models, an equally important question is if honest users could be harmed by
malicious third-party content. In this paper we show that imperceivable attacks
on images in order to change the caption output of a multi-modal foundation
model can be used by malicious content providers to harm honest users e.g. by
guiding them to malicious websites or broadcast fake information. This
indicates that countermeasures to adversarial attacks should be used by any
deployed multi-modal foundation model.
- Abstract(参考訳): FlamingoやGPT-4のようなビジョンと言語モデルを組み合わせたマルチモーダル基礎モデルは、最近大きな関心を集めている。
基礎モデルのアライメントは、モデルが有害または有害な出力を提供するのを防ぐために使用される。
悪意のあるユーザーがファンデーションモデルをジェイルブレイクしようとしたが、同様に重要な疑問は、悪意のあるサードパーティのコンテンツによって、正直なユーザーが被害を受けるかどうかだ。
本稿では,マルチモーダルファウンデーションモデルのキャプション出力を変更するためのイメージに対する不可避な攻撃を,悪意のあるコンテンツ提供者が悪意のあるwebサイトへ誘導したり,偽情報をブロードキャストしたりすることで,正直なユーザを害することができることを示す。
これは、攻撃に対する対策は、デプロイされた任意のマルチモーダル基盤モデルで使用されるべきであることを示している。
関連論文リスト
- BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning [71.60858267608306]
医療基盤モデルはバックドア攻撃の影響を受けやすい。
本研究は,素早い学習期間中に医療基盤モデルにバックドアを埋め込む方法を紹介する。
我々の手法であるBAPLeは、ノイズトリガを調整するために最小限のデータサブセットしか必要とせず、テキストは下流のタスクにプロンプトする。
論文 参考訳(メタデータ) (2024-08-14T10:18:42Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks? [23.660089146157507]
我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。
本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。
本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
論文 参考訳(メタデータ) (2024-03-19T12:51:39Z) - Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models [42.379680603462155]
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-19T18:09:48Z) - Will releasing the weights of future large language models grant
widespread access to pandemic agents? [0.0]
適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」な洞察の提供を拒否します。
モデル体重増加の継続が、より有能な将来のモデルを利用して大量死を引き起こす悪質なアクターの助けになるかどうかを検討した。
論文 参考訳(メタデータ) (2023-10-25T13:43:16Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Exposing Fine-Grained Adversarial Vulnerability of Face Anti-Spoofing
Models [13.057451851710924]
Face-Spoofingは、スプーフする顔画像(例えば、印刷された写真)をライブ画像と区別することを目的としている。
従来は対向攻撃法を用いて対面防汚性能の評価を行った。
本稿では,顔の反偽造モデルにおけるきめ細かな敵の脆弱性を明らかにするための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-30T04:56:33Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。