論文の概要: Injecting Falsehoods: Adversarial Man-in-the-Middle Attacks Undermining Factual Recall in LLMs
- arxiv url: http://arxiv.org/abs/2511.05919v1
- Date: Sat, 08 Nov 2025 08:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.651484
- Title: Injecting Falsehoods: Adversarial Man-in-the-Middle Attacks Undermining Factual Recall in LLMs
- Title(参考訳): LLMにおけるFactual Recallを損なう逆マン・イン・ザ・ミドルアタック
- Authors: Alina Fastowski, Bardh Prenkaj, Yuxiao Li, Gjergji Kasneci,
- Abstract要約: 本稿では,Xmeraを介するインジェクション下でのファクトメモリに対する第一原理的攻撃評価を提案する。
自明な命令に基づく攻撃は、最高成功率(最大85.3%)を報告し、同時に不正に答えた質問に対して高い不確実性を持つ。
我々は、攻撃されたクエリと攻撃されていないクエリを区別するために、応答不確実性レベルに基づいてランダムフォレスト分類器を訓練する。
- 参考スコア(独自算出の注目度): 20.83956587986665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are now an integral part of information retrieval. As such, their role as question answering chatbots raises significant concerns due to their shown vulnerability to adversarial man-in-the-middle (MitM) attacks. Here, we propose the first principled attack evaluation on LLM factual memory under prompt injection via Xmera, our novel, theory-grounded MitM framework. By perturbing the input given to "victim" LLMs in three closed-book and fact-based QA settings, we undermine the correctness of the responses and assess the uncertainty of their generation process. Surprisingly, trivial instruction-based attacks report the highest success rate (up to ~85.3%) while simultaneously having a high uncertainty for incorrectly answered questions. To provide a simple defense mechanism against Xmera, we train Random Forest classifiers on the response uncertainty levels to distinguish between attacked and unattacked queries (average AUC of up to ~96%). We believe that signaling users to be cautious about the answers they receive from black-box and potentially corrupt LLMs is a first checkpoint toward user cyberspace safety.
- Abstract(参考訳): LLMは情報検索の不可欠な部分となっている。
このように、質問応答チャットボットとしての彼らの役割は、敵対的中間者攻撃(MitM)に対する脆弱性を示すため、重大な懸念を提起する。
そこで本研究では,Xmeraを介する即時インジェクションによるLCMのファクトメモリに対する第1原理的攻撃評価手法を提案する。
3つのクローズドブックとファクトベースのQA設定でLLMに与えられる入力を摂動することで、応答の正しさを損なうことができ、生成プロセスの不確実性を評価することができる。
驚くべきことに、自明な命令ベースの攻撃は、最高成功率(最大85.3%)を報告し、同時に不正に答えた質問に対して高い不確実性を持っている。
Xmeraに対する単純な防御機構として,攻撃されたクエリと攻撃されていないクエリを区別するために,ランダムフォレスト分類器を応答不確かさレベルに訓練する(平均AUCは最大96%)。
私たちは、ユーザーがブラックボックスや潜在的に腐敗したLCMから受け取った回答に注意を喚起することが、ユーザーサイバースペースの安全性に対する最初のチェックポイントであると信じています。
関連論文リスト
- Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。