Fugu-MT 論文翻訳(概要): On the Adversarial Robustness of Multi-Modal Foundation Models

論文の概要: On the Adversarial Robustness of Multi-Modal Foundation Models

arxiv url: http://arxiv.org/abs/2308.10741v1
Date: Mon, 21 Aug 2023 14:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 13:08:35.366437
Title: On the Adversarial Robustness of Multi-Modal Foundation Models
Title（参考訳）: マルチモーダル基礎モデルの逆ロバスト性について
Authors: Christian Schlarmann and Matthias Hein
Abstract要約: マルチモーダル基盤モデルのキャプション出力を変更するために、悪意のあるコンテンツプロバイダが画像に対する認識不能な攻撃を使用できることを示す。敵攻撃に対する対策は、デプロイされたマルチモーダル・ファンデーション・モデルによって使用されるべきである。
参考スコア（独自算出の注目度）: 43.19488721504591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal foundation models combining vision and language models such as Flamingo or GPT-4 have recently gained enormous interest. Alignment of foundation models is used to prevent models from providing toxic or harmful output. While malicious users have successfully tried to jailbreak foundation models, an equally important question is if honest users could be harmed by malicious third-party content. In this paper we show that imperceivable attacks on images in order to change the caption output of a multi-modal foundation model can be used by malicious content providers to harm honest users e.g. by guiding them to malicious websites or broadcast fake information. This indicates that countermeasures to adversarial attacks should be used by any deployed multi-modal foundation model.
Abstract（参考訳）: FlamingoやGPT-4のようなビジョンと言語モデルを組み合わせたマルチモーダル基礎モデルは、最近大きな関心を集めている。基礎モデルのアライメントは、モデルが有害または有害な出力を提供するのを防ぐために使用される。悪意のあるユーザーがファンデーションモデルをジェイルブレイクしようとしたが、同様に重要な疑問は、悪意のあるサードパーティのコンテンツによって、正直なユーザーが被害を受けるかどうかだ。本稿では,マルチモーダルファウンデーションモデルのキャプション出力を変更するためのイメージに対する不可避な攻撃を,悪意のあるコンテンツ提供者が悪意のあるwebサイトへ誘導したり,偽情報をブロードキャストしたりすることで,正直なユーザを害することができることを示す。これは、攻撃に対する対策は、デプロイされた任意のマルチモーダル基盤モデルで使用されるべきであることを示している。

関連論文リスト

Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文参考訳（メタデータ） (2025-06-24T15:40:11Z)
Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文参考訳（メタデータ） (2025-02-12T11:02:59Z)
Attacks on multimodal models [49.1574468325115]
本研究は、そのようなモデルに対する様々な種類の攻撃を調査し、それらの一般化能力を評価することを目的としている。本研究の主な対象は、CLIPアーキテクチャとそのイメージエンコーダ(CLIP-ViT)と、それに対する様々なパッチアタックのバリエーションである。
論文参考訳（メタデータ） (2024-12-02T17:15:59Z)
BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning [71.60858267608306]
医療基盤モデルはバックドア攻撃の影響を受けやすい。本研究は,素早い学習期間中に医療基盤モデルにバックドアを埋め込む方法を紹介する。我々の手法であるBAPLeは、ノイズトリガを調整するために最小限のデータサブセットしか必要とせず、テキストは下流のタスクにプロンプトする。
論文参考訳（メタデータ） (2024-08-14T10:18:42Z)
Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文参考訳（メタデータ） (2024-06-18T14:43:18Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks? [23.660089146157507]
我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
論文参考訳（メタデータ） (2024-03-19T12:51:39Z)
Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models [42.379680603462155]
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
論文参考訳（メタデータ） (2024-02-19T18:09:48Z)
Will releasing the weights of future large language models grant widespread access to pandemic agents? [0.0]
適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」な洞察の提供を拒否します。モデル体重増加の継続が、より有能な将来のモデルを利用して大量死を引き起こす悪質なアクターの助けになるかどうかを検討した。
論文参考訳（メタデータ） (2023-10-25T13:43:16Z)
Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文参考訳（メタデータ） (2023-06-26T17:18:44Z)
Exposing Fine-Grained Adversarial Vulnerability of Face Anti-Spoofing Models [13.057451851710924]
Face-Spoofingは、スプーフする顔画像(例えば、印刷された写真)をライブ画像と区別することを目的としている。従来は対向攻撃法を用いて対面防汚性能の評価を行った。本稿では,顔の反偽造モデルにおけるきめ細かな敵の脆弱性を明らかにするための新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-05-30T04:56:33Z)
Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文参考訳（メタデータ） (2020-09-05T06:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。