論文の概要: On the Adversarial Robustness of Multi-Modal Foundation Models
- arxiv url: http://arxiv.org/abs/2308.10741v1
- Date: Mon, 21 Aug 2023 14:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:08:35.366437
- Title: On the Adversarial Robustness of Multi-Modal Foundation Models
- Title(参考訳): マルチモーダル基礎モデルの逆ロバスト性について
- Authors: Christian Schlarmann and Matthias Hein
- Abstract要約: マルチモーダル基盤モデルのキャプション出力を変更するために、悪意のあるコンテンツプロバイダが画像に対する認識不能な攻撃を使用できることを示す。
敵攻撃に対する対策は、デプロイされたマルチモーダル・ファンデーション・モデルによって使用されるべきである。
- 参考スコア(独自算出の注目度): 43.19488721504591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal foundation models combining vision and language models such as
Flamingo or GPT-4 have recently gained enormous interest. Alignment of
foundation models is used to prevent models from providing toxic or harmful
output. While malicious users have successfully tried to jailbreak foundation
models, an equally important question is if honest users could be harmed by
malicious third-party content. In this paper we show that imperceivable attacks
on images in order to change the caption output of a multi-modal foundation
model can be used by malicious content providers to harm honest users e.g. by
guiding them to malicious websites or broadcast fake information. This
indicates that countermeasures to adversarial attacks should be used by any
deployed multi-modal foundation model.
- Abstract(参考訳): FlamingoやGPT-4のようなビジョンと言語モデルを組み合わせたマルチモーダル基礎モデルは、最近大きな関心を集めている。
基礎モデルのアライメントは、モデルが有害または有害な出力を提供するのを防ぐために使用される。
悪意のあるユーザーがファンデーションモデルをジェイルブレイクしようとしたが、同様に重要な疑問は、悪意のあるサードパーティのコンテンツによって、正直なユーザーが被害を受けるかどうかだ。
本稿では,マルチモーダルファウンデーションモデルのキャプション出力を変更するためのイメージに対する不可避な攻撃を,悪意のあるコンテンツ提供者が悪意のあるwebサイトへ誘導したり,偽情報をブロードキャストしたりすることで,正直なユーザを害することができることを示す。
これは、攻撃に対する対策は、デプロイされた任意のマルチモーダル基盤モデルで使用されるべきであることを示している。
関連論文リスト
- Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Attacks on multimodal models [49.1574468325115]
本研究は、そのようなモデルに対する様々な種類の攻撃を調査し、それらの一般化能力を評価することを目的としている。
本研究の主な対象は、CLIPアーキテクチャとそのイメージエンコーダ(CLIP-ViT)と、それに対する様々なパッチアタックのバリエーションである。
論文 参考訳(メタデータ) (2024-12-02T17:15:59Z) - BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning [71.60858267608306]
医療基盤モデルはバックドア攻撃の影響を受けやすい。
本研究は,素早い学習期間中に医療基盤モデルにバックドアを埋め込む方法を紹介する。
我々の手法であるBAPLeは、ノイズトリガを調整するために最小限のデータサブセットしか必要とせず、テキストは下流のタスクにプロンプトする。
論文 参考訳(メタデータ) (2024-08-14T10:18:42Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks? [23.660089146157507]
我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。
本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。
本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
論文 参考訳(メタデータ) (2024-03-19T12:51:39Z) - Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models [42.379680603462155]
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-19T18:09:48Z) - Will releasing the weights of future large language models grant
widespread access to pandemic agents? [0.0]
適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」な洞察の提供を拒否します。
モデル体重増加の継続が、より有能な将来のモデルを利用して大量死を引き起こす悪質なアクターの助けになるかどうかを検討した。
論文 参考訳(メタデータ) (2023-10-25T13:43:16Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。