論文の概要: The Vulnerability of LLM Rankers to Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2602.16752v1
- Date: Wed, 18 Feb 2026 06:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.272573
- Title: The Vulnerability of LLM Rankers to Prompt Injection Attacks
- Title(参考訳): プロンプトインジェクション攻撃に対するLDMランカの脆弱性
- Authors: Yu Yin, Shuai Wang, Bevan Koopman, Guido Zuccon,
- Abstract要約: 大規模言語モデル(LLM)は強力なリランカとして登場した。
最近の研究では、候補文書に埋め込まれた単純なプロンプトインジェクションは、LCMのランキング決定を著しく変える可能性があることが示されている。
- 参考スコア(独自算出の注目度): 40.03039307576983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as powerful re-rankers. Recent research has however showed that simple prompt injections embedded within a candidate document (i.e., jailbreak prompt attacks) can significantly alter an LLM's ranking decisions. While this poses serious security risks to LLM-based ranking pipelines, the extent to which this vulnerability persists across diverse LLM families, architectures, and settings remains largely under-explored. In this paper, we present a comprehensive empirical study of jailbreak prompt attacks against LLM rankers. We focus our evaluation on two complementary tasks: (1) Preference Vulnerability Assessment, measuring intrinsic susceptibility via attack success rate (ASR); and (2) Ranking Vulnerability Assessment, quantifying the operational impact on the ranking's quality (nDCG@10). We systematically examine three prevalent ranking paradigms (pairwise, listwise, setwise) under two injection variants: decision objective hijacking and decision criteria hijacking. Beyond reproducing prior findings, we expand the analysis to cover vulnerability scaling across model families, position sensitivity, backbone architectures, and cross-domain robustness. Our results characterize the boundary conditions of these vulnerabilities, revealing critical insights such as that encoder-decoder architectures exhibit strong inherent resilience to jailbreak attacks. We publicly release our code and additional experimental results at https://github.com/ielab/LLM-Ranker-Attack.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なリランカとして登場した。
しかし、近年の研究では、候補文書に埋め込まれた単純なプロンプトインジェクション(つまり、ジェイルブレイクのプロンプトアタック)が、LCMのランク決定を著しく変える可能性があることが示されている。
LLMベースのランキングパイプラインには深刻なセキュリティリスクが伴うが、この脆弱性がLLMファミリー、アーキテクチャ、設定にまたがる範囲は、ほとんど探索されていないままである。
本稿では,LLMランサーに対するジェイルブレイク即時攻撃に関する総合的な実証的研究について述べる。
評価は,(1)攻撃成功率(ASR)による本質的感受性の評価,(2)ランク付け脆弱性評価(nDCG@10)の2つの相補的課題に焦点をあてる。
決定目的ハイジャックと決定基準ハイジャックという2つのインジェクションのバリエーションの下で,3つの一般的なランキングパラダイム(ペアワイズ,リストワイズ,セットワイズ)を体系的に検討した。
以前の知見を再現する以外に、モデルファミリ間の脆弱性スケーリング、位置感度、バックボーンアーキテクチャ、ドメイン間の堅牢性などをカバーするように分析を拡張しています。
これらの脆弱性の境界条件の特徴として,エンコーダ・デコーダアーキテクチャがジェイルブレイク攻撃に強いレジリエンスを示すなど,重要な知見が浮かび上がっている。
コードと実験結果はhttps://github.com/ielab/LLM-Ranker-Attack.comで公開しています。
関連論文リスト
- LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。
筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文 参考訳(メタデータ) (2025-08-01T13:04:28Z) - Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。