Fugu-MT 論文翻訳(概要): Talk Too Much: Poisoning Large Language Models under Token Limit

論文の概要: Talk Too Much: Poisoning Large Language Models under Token Limit

arxiv url: http://arxiv.org/abs/2404.14795v2
Date: Wed, 24 Apr 2024 02:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-25 15:54:19.548090
Title: Talk Too Much: Poisoning Large Language Models under Token Limit
Title（参考訳）: 講演の過度さ - トークン制限下での大規模言語モデルの提供
Authors: Jiaming He, Wenbo Jiang, Guanyu Hou, Wenshu Fan, Rui Zhang, Hongwei Li,
Abstract要約: 大規模言語モデル(LLM)に対するメインストリームの中毒攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。本稿では, 発生/出力条件の制約によって引き起こされるLSMに対する中毒攻撃について述べる。有毒モデルは通常、トークン制限のない出力に対して動作し、限られたトークンを持つ出力に対して有害となる。
参考スコア（独自算出の注目度）: 8.348993615202138
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Mainstream poisoning attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed trigger setting (e.g., unusual words) may be easily detected by human detection, limiting the effectiveness and practicality in real-world scenarios. To enhance the stealthiness of the trigger, we present a poisoning attack against LLMs that is triggered by a generation/output condition-token limitation, which is a commonly adopted strategy by users for reducing costs. The poisoned model performs normally for output without token limitation, while becomes harmful for output with limited tokens. To achieve this objective, we introduce BrieFool, an efficient attack framework. It leverages the characteristics of generation limitation by efficient instruction sampling and poisoning data generation, thereby influencing the behavior of LLMs under target conditions. Our experiments demonstrate that BrieFool is effective across safety domains and knowledge domains. For instance, with only 20 generated poisoning examples against GPT-3.5-turbo, BrieFool achieves a 100% Attack Success Rate (ASR) and a 9.28/10 average Harmfulness Score (HS) under token limitation conditions while maintaining the benign performance.
Abstract（参考訳）: 大規模言語モデル(LLM)に対するメインストリームの中毒攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。しかし、固定的なトリガー設定(例:異常な単語)は、人間の検出によって容易に検出でき、現実のシナリオにおける有効性と実用性を制限することができる。トリガのステルス性を高めるため,コスト削減のためのユーザによる一般的な戦略であるジェネレーション・アウトプット・コンディション・トケンの制限によって引き起こされるLSMに対する中毒攻撃を提案する。有毒モデルは通常、トークン制限なしで出力を行うが、トークン制限のある出力には有害となる。この目的を達成するために、効率的な攻撃フレームワークであるBrieFoolを紹介します。効率的な指導サンプリングと中毒データ生成により, 生成制限の特性を活用し, 目標条件下でのLCMの挙動に影響を与える。実験の結果,BrieFoolは安全領域や知識領域にまたがって有効であることがわかった。例えば、GPT-3.5-turboに対する中毒例は20件しかなく、BrieFoolは100%アタック成功率(ASR)と9.28/10の平均ハーミフルネススコア(HS)をトークン制限条件下で達成し、良質な性能を維持している。

関連論文リスト

Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文参考訳（メタデータ） (2025-06-02T09:01:35Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
SFIBA: Spatial-based Full-target Invisible Backdoor Attacks [9.124060365358748]
マルチターゲットバックドア攻撃は、ディープニューラルネットワークに重大なセキュリティ脅威をもたらす。本研究では,SFIBAと呼ばれる空間的対象の視覚的バックドア攻撃を提案する。 SFIBAは、良質なサンプルに対してモデルの性能を保ちながら、優れた攻撃性能とステルスネスを達成することができることを示す。
論文参考訳（メタデータ） (2025-04-29T05:28:12Z)
PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文参考訳（メタデータ） (2025-04-10T13:09:50Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文参考訳（メタデータ） (2024-07-17T17:59:47Z)
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文参考訳（メタデータ） (2024-06-24T19:29:47Z)
Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。 GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文参考訳（メタデータ） (2024-02-19T18:01:36Z)
ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文参考訳（メタデータ） (2023-08-04T03:48:28Z)
Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文参考訳（メタデータ） (2023-07-31T11:05:55Z)
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文参考訳（メタデータ） (2023-05-02T06:19:36Z)
Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。 CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文参考訳（メタデータ） (2022-02-15T12:02:59Z)
Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文参考訳（メタデータ） (2021-10-30T07:11:24Z)
Generating Label Cohesive and Well-Formed Adversarial Claims [44.29895319592488]
敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。本研究は,真理を保存した事実チェックシステムに対して,敵対的な攻撃を発生させる方法について検討する。生成した攻撃は, クレームの方向性と意味的妥当性を, 従来よりも良好に維持していることがわかった。
論文参考訳（メタデータ） (2020-09-17T10:50:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。