論文の概要: Technical Report for ICML 2024 TiFA Workshop MLLM Attack Challenge: Suffix Injection and Projected Gradient Descent Can Easily Fool An MLLM
- arxiv url: http://arxiv.org/abs/2412.15614v1
- Date: Fri, 20 Dec 2024 07:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:58.255236
- Title: Technical Report for ICML 2024 TiFA Workshop MLLM Attack Challenge: Suffix Injection and Projected Gradient Descent Can Easily Fool An MLLM
- Title(参考訳): ICML 2024 TiFA Workshop MLLM Challenge Challenge: Suffix Injection and Projected Gradient Descent Can easily Fool an MLLM
- Authors: Yangyang Guo, Ziwei Xu, Xilie Xu, YongKang Wong, Liqiang Nie, Mohan Kankanhalli,
- Abstract要約: 本報告では、TiFAワークショップMLLMアタックチャレンジに対処するための、トップランクのソリューションを紹介します。
まず、間違ったラベル付きオプション(擬似ラベル付き)から元のクエリに接尾辞としてテキストを追加する。
この修正クエリを用いて、画像に知覚不能な摂動を加えるためにPGD法を適用した。
- 参考スコア(独自算出の注目度): 62.94350555141339
- License:
- Abstract: This technical report introduces our top-ranked solution that employs two approaches, \ie suffix injection and projected gradient descent (PGD) , to address the TiFA workshop MLLM attack challenge. Specifically, we first append the text from an incorrectly labeled option (pseudo-labeled) to the original query as a suffix. Using this modified query, our second approach applies the PGD method to add imperceptible perturbations to the image. Combining these two techniques enables successful attacks on the LLaVA 1.5 model.
- Abstract(参考訳): 本技術報告では,TiFAワークショップMLLMアタック問題に対処するため,<ie suffix Injection> と PGD の2つのアプローチを用いたトップランクソリューションを紹介した。
具体的には、最初に、間違ったラベル付きオプション(擬似ラベル付き)から元のクエリに接尾辞としてテキストを付加する。
この修正クエリを用いて、画像に知覚不能な摂動を加えるためにPGD法を適用した。
これら2つのテクニックを組み合わせることで、LLaVA 1.5モデルに対する攻撃を成功させることができる。
関連論文リスト
- Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。
本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文 参考訳(メタデータ) (2024-11-08T08:52:59Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。
本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Editing Arbitrary Propositions in LLMs without Subject Labels [88.67755930096966]
GT(Gradient Tracing)と呼ばれるシンプルで高速なローカライゼーション手法を提案する。
GTは、単にバイナリではなく任意の命題を編集できる。
提案手法は, 対象ラベルにアクセスせずに, 対象ラベルを持つ最先端のL&E手法に近い動作を行うことを示す。
論文 参考訳(メタデータ) (2024-01-15T08:08:24Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。