論文の概要: LLM Hypnosis: Exploiting User Feedback for Unauthorized Knowledge Injection to All Users
- arxiv url: http://arxiv.org/abs/2507.02850v1
- Date: Thu, 03 Jul 2025 17:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.869418
- Title: LLM Hypnosis: Exploiting User Feedback for Unauthorized Knowledge Injection to All Users
- Title(参考訳): LLMハイプノーシス:すべてのユーザに対して無許可の知識注入のためにユーザフィードバックを爆発させる
- Authors: Almog Hilel, Idan Shenfeld, Leshem Choshen, Jacob Andreas,
- Abstract要約: ユーザフィードバックで訓練された言語モデルにおける脆弱性について説明する。
単一ユーザは、LMの知識と振る舞いを永続的に変更することができる。
この攻撃は、モデルがこれまで持っていなかった事実的知識を挿入するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 50.18141341939909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a vulnerability in language models (LMs) trained with user feedback, whereby a single user can persistently alter LM knowledge and behavior given only the ability to provide prompts and upvote / downvote feedback on LM outputs. To implement the attack, the attacker prompts the LM to stochastically output either a "poisoned" or benign response, then upvotes the poisoned response or downvotes the benign one. When feedback signals are used in a subsequent preference tuning behavior, LMs exhibit increased probability of producing poisoned responses even in contexts without malicious prompts. We show that this attack can be used to (1) insert factual knowledge the model did not previously possess, (2) modify code generation patterns in ways that introduce exploitable security flaws, and (3) inject fake financial news. Our finding both identifies a new qualitative feature of language model preference tuning (showing that it even highly restricted forms of preference data can be used to exert fine-grained control over behavior), and a new attack mechanism for LMs trained with user feedback (extending work on pretraining-time data poisoning and deployment-time prompt injection).
- Abstract(参考訳): ユーザからのフィードバックで訓練された言語モデル(LM)の脆弱性について説明する。これにより、単一のユーザがLMの知識と振る舞いを永続的に変更できる。
攻撃を実装するため、攻撃者はLMに「毒殺」または「良性反応」のどちらかを確率的に出力するよう促し、毒殺反応を無効にするか、良性反応を無効にする。
フィードバック信号がその後の選好チューニング動作に使用されると、悪意のあるプロンプトのない状況でも、LMは有害な応答を発生させる確率が増大する。
この攻撃は、(1)モデルがこれまで持っていなかった事実知識を挿入し、(2)悪用可能なセキュリティ欠陥を導入する方法でコード生成パターンを修正し、(3)偽の金融ニュースを注入するために使用できることを示す。
この2つの発見は,言語モデル選好チューニングの新しい定性的な特徴(行動のきめ細かな制御を行うために,非常に制限された形式の選好データを使用すること)と,ユーザフィードバックで訓練されたLMに対する新たな攻撃機構(事前学習時のデータ中毒と展開時の即時インジェクション)を識別するものである。
関連論文リスト
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs [8.449922248196705]
我々は,アライメントトレーニング保護を貫くために,ユーザから供給されるプロンプトを介して,微妙ながら効果的な毒殺攻撃を行う。
我々の攻撃は、ブラックボックス設定における目標LLMの明示的な知識がなくても、報酬フィードバック機構を微妙に変更する。
これらの特殊なプロンプトの1%をデータに注入することにより、悪意のあるユーザを通して、特定のトリガーワードを使用する場合の毒性スコアを最大2倍に向上させる。
論文 参考訳(メタデータ) (2024-09-01T17:40:04Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。