Fugu-MT 論文翻訳(概要): Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers

論文の概要: Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers

arxiv url: http://arxiv.org/abs/2407.04151v2
Date: Mon, 28 Oct 2024 17:48:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 23:57:53.462205
Title: Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers
Title（参考訳）: 分散バックドアトリガーによるマルチターン会話言語モデルのセキュア化
Authors: Terry Tong, Jiashu Xu, Qin Liu, Muhao Chen,
Abstract要約: 大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
参考スコア（独自算出の注目度）: 29.554818890832887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have acquired the ability to handle longer context lengths and understand nuances in text, expanding their dialogue capabilities beyond a single utterance. A popular user-facing application of LLMs is the multi-turn chat setting. Though longer chat memory and better understanding may seemingly benefit users, our paper exposes a vulnerability that leverages the multi-turn feature and strong learning ability of LLMs to harm the end-user: the backdoor. We demonstrate that LLMs can capture the combinational backdoor representation. Only upon presentation of triggers together does the backdoor activate. We also verify empirically that this representation is invariant to the position of the trigger utterance. Subsequently, inserting a single extra token into two utterances of 5%of the data can cause over 99% Attack Success Rate (ASR). Our results with 3 triggers demonstrate that this framework is generalizable, compatible with any trigger in an adversary's toolbox in a plug-and-play manner. Defending the backdoor can be challenging in the chat setting because of the large input and output space. Our analysis indicates that the distributed backdoor exacerbates the current challenges by polynomially increasing the dimension of the attacked input space. Canonical textual defenses like ONION and BKI leverage auxiliary model forward passes over individual tokens, scaling exponentially with the input sequence length and struggling to maintain computational feasibility. To this end, we propose a decoding time defense - decayed contrastive decoding - that scales linearly with assistant response sequence length and reduces the backdoor to as low as 0.35%.
Abstract（参考訳）: 大規模言語モデル(LLM)は、長い文脈長を処理し、テキストでニュアンスを理解する能力を獲得し、対話能力を単一の発話を超えて拡張した。 LLMのユーザ向けアプリケーションとしては、マルチターンチャット設定がある。より長いチャットメモリとより良い理解は、ユーザにとって有益と思われるが、私たちの論文は、マルチターン機能とLDMの強力な学習能力を活用して、エンドユーザ、すなわちバックドアを害する脆弱性を公開している。 LLMが組合わせのバックドア表現をキャプチャできることを実証する。トリガーの表示時にのみ、バックドアがアクティベートされる。また、この表現がトリガー発話の位置に不変であることを実証的に検証する。その後、データの5%の2つの発話に1つの余分なトークンを挿入すると、99%のアタック成功率(ASR)が発生する。我々の3つのトリガによる結果は、このフレームワークが汎用化可能であり、プラグイン・アンド・プレイ方式で、相手のツールボックス内の任意のトリガと互換性があることを示します。大規模な入力と出力スペースのため、チャット設定ではバックドアの修正が難しい場合があります。本分析は,攻撃された入力空間の次元を多項式的に増加させることにより,分散バックドアが現在の課題を悪化させることを示す。 OnIONやBKIのような標準的なテキストの防御は、個々のトークンの前方通過を補助的に利用し、入力シーケンスの長さで指数関数的にスケーリングし、計算可能性を維持するのに苦労する。そこで本研究では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間防衛法を提案する。

関連論文リスト

Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models [17.839413035304748]
LLM(Large Language Models)に対するバックドアのアンアライメント攻撃は、隠れたトリガーを使用して、安全アライメントのステルスな妥協を可能にする。我々は,裏口LDMを不活性化させるために,推論中にトリガサンプルを検出するブラックボックスディフェンスBEATを紹介する。本手法は, サンプル依存目標の課題を, 反対の観点から解決する。
論文参考訳（メタデータ） (2025-06-19T16:30:56Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Large Language Models Can Verbatim Reproduce Long Malicious Sequences [23.0516001201445]
機械学習モデルに対するバックドア攻撃は、広く研究されている。本稿では,大規模言語モデルにおけるバックドア攻撃の概念を再検討する。ターゲット入力のトリガによって、$leq100$のハードコードキーを含む任意の応答を再生できることが判明した。
論文参考訳（メタデータ） (2025-03-21T23:24:49Z)
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models [79.36881186707413]
マルチモーダル大言語モデル(MLLM)はマルチモーダル情報を処理し、画像テキスト入力に対する応答を生成する。 MLLMは、細調整なしでプラグイン・アンド・プレイを通じて、自律運転や診断などの多様なマルチモーダルアプリケーションに組み込まれている。 MLLMに対する最初のトークンレベルのバックドア攻撃であるBadTokenを提案する。
論文参考訳（メタデータ） (2025-03-20T10:39:51Z)
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文参考訳（メタデータ） (2024-11-19T18:11:36Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models [35.77228114378362]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらすこれらの課題に対処するための新しいソリューションとして、CoS(Chain-of-Scrutiny)を提案する。 CoS は LLM を誘導して入力の詳細な推論ステップを生成し、最後に答えの整合性を確保するために推論プロセスを精査する。
論文参考訳（メタデータ） (2024-06-10T00:53:25Z)
SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文参考訳（メタデータ） (2024-05-21T06:37:03Z)
Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文参考訳（メタデータ） (2024-05-13T11:53:42Z)
Exploring Backdoor Vulnerabilities of Chat Models [31.802374847226393]
近年の研究では、LLM(Large Language Models)がバックドアアタック(Backdoor Attack)と呼ばれるセキュリティの脅威を受けやすいことが示されている。本稿では,異なるラウンドのユーザ入力に対して複数のトリガシナリオを分散することで,チャットモデルに対する新たなバックドア攻撃手法を提案する。実験により,チャットモデルの正常な性能を維持しつつ,高い攻撃成功率を達成できることが実証された。
論文参考訳（メタデータ） (2024-04-03T02:16:53Z)
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文参考訳（メタデータ） (2023-08-30T16:47:51Z)
From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文参考訳（メタデータ） (2023-05-24T08:59:25Z)
Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文参考訳（メタデータ） (2023-03-25T01:41:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。