論文の概要: StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization
- arxiv url: http://arxiv.org/abs/2504.05804v1
- Date: Tue, 08 Apr 2025 08:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:06.547959
- Title: StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization
- Title(参考訳): StealthRank: Stealthy Prompt OptimizationによるLLMランキング操作
- Authors: Yiming Tang, Yi Fan, Chenxiao Yu, Tiankai Yang, Yue Zhao, Xiyang Hu,
- Abstract要約: StealthRankは、大きな言語モデル(LLMs)を操作する新しい敵ランク攻撃である。
以上の結果から、StealthRankは、最先端の対人的ランキングのベースラインを、有効性とステルスの両方で一貫して上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.031545357388357
- License:
- Abstract: The integration of large language models (LLMs) into information retrieval systems introduces new attack surfaces, particularly for adversarial ranking manipulations. We present StealthRank, a novel adversarial ranking attack that manipulates LLM-driven product recommendation systems while maintaining textual fluency and stealth. Unlike existing methods that often introduce detectable anomalies, StealthRank employs an energy-based optimization framework combined with Langevin dynamics to generate StealthRank Prompts (SRPs)-adversarial text sequences embedded within product descriptions that subtly yet effectively influence LLM ranking mechanisms. We evaluate StealthRank across multiple LLMs, demonstrating its ability to covertly boost the ranking of target products while avoiding explicit manipulation traces that can be easily detected. Our results show that StealthRank consistently outperforms state-of-the-art adversarial ranking baselines in both effectiveness and stealth, highlighting critical vulnerabilities in LLM-driven recommendation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)を情報検索システムに統合することで、特に敵のランキング操作のための新たな攻撃面が導入される。
本稿では,LLMによる製品レコメンデーションシステムをテキストの流布とステルスを維持しながら操作する,新たな逆ランキング攻撃であるStealthRankを紹介する。
検出可能な異常をしばしば導入する既存の方法とは異なり、StealthRankはLangevinのダイナミックスと組み合わせたエネルギーベースの最適化フレームワークを使用して、製品記述に埋め込まれたStealthRank Prompts(SRP)-adversarial text sequenceを生成する。
我々は,複数のLSMに対してStealthRankを評価し,検出が容易な明示的な操作トレースを回避しつつ,対象製品のランキングを隠蔽的に向上する能力を示した。
以上の結果から,StealthRankは,LLM駆動レコメンデーションシステムにおける致命的な脆弱性を浮き彫りにして,最先端の敵対的ランキングベースラインを常に上回っていることが明らかとなった。
関連論文リスト
- The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。
提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。
我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文 参考訳(メタデータ) (2025-01-27T12:48:47Z) - ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers [22.51924253176532]
大規模言語モデル(LLM)は、RangeGPTのような作品を通してテキストのランク付けにおいて顕著な効果を示している。
ランク付けのための微調整の監督は、これらのモデルの汎用能力を低下させる。
そこで本稿では,SFT-DPOパイプラインを用いたChain-of-Thoughtの導入により,これらの機能を維持しつつ,ランキング性能を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs [6.936401700600395]
大規模言語モデル(LLM)は、セキュリティ要件を実装するアタック検出器などの関数を生成するために、ソフトウェア開発でますます使われている。
これは、LLMが既存の攻撃に関する知識を欠いていることと、生成されたコードが実際の使用シナリオで評価されていないことによる可能性が高い。
本稿では,LLMパイプラインにRAG(Retrieval Augmented Generation)とSelf-Rankingを統合した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-27T10:48:37Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Understanding Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。