論文の概要: Adversarial Attacks against Neural Ranking Models via In-Context Learning
- arxiv url: http://arxiv.org/abs/2508.15283v1
- Date: Thu, 21 Aug 2025 06:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.208906
- Title: Adversarial Attacks against Neural Ranking Models via In-Context Learning
- Title(参考訳): 文脈学習によるニューラルランキングモデルに対する敵対的攻撃
- Authors: Amin Bigdeli, Negar Arabzadeh, Ebrahim Bagheri, Charles L. A. Clarke,
- Abstract要約: 本稿では,Few-Shot Adversarial Prompting (FSAP)を紹介した。
FSAPは、数発のプロンプトを通じて完全に敵攻撃を定式化し、グラデーションアクセスや内部モデルインスツルメンテーションを必要としない。
TREC 2020と2021 Health Misinformation Tracksの実験では、4つの多様なニューラルネットワークランキングモデルを用いて、FSAPが生成した文書が、信頼できる、事実的正確な文書を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 20.106547084712922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural ranking models (NRMs) have shown high effectiveness, they remain susceptible to adversarial manipulation. In this work, we introduce Few-Shot Adversarial Prompting (FSAP), a novel black-box attack framework that leverages the in-context learning capabilities of Large Language Models (LLMs) to generate high-ranking adversarial documents. Unlike previous approaches that rely on token-level perturbations or manual rewriting of existing documents, FSAP formulates adversarial attacks entirely through few-shot prompting, requiring no gradient access or internal model instrumentation. By conditioning the LLM on a small support set of previously observed harmful examples, FSAP synthesizes grammatically fluent and topically coherent documents that subtly embed false or misleading information and rank competitively against authentic content. We instantiate FSAP in two modes: FSAP-IntraQ, which leverages harmful examples from the same query to enhance topic fidelity, and FSAP-InterQ, which enables broader generalization by transferring adversarial patterns across unrelated queries. Our experiments on the TREC 2020 and 2021 Health Misinformation Tracks, using four diverse neural ranking models, reveal that FSAP-generated documents consistently outrank credible, factually accurate documents. Furthermore, our analysis demonstrates that these adversarial outputs exhibit strong stance alignment and low detectability, posing a realistic and scalable threat to neural retrieval systems. FSAP also effectively generalizes across both proprietary and open-source LLMs.
- Abstract(参考訳): ニューラルランキングモデル(NRMs)は高い有効性を示しているが、敵の操作に影響を受けやすい。
本研究では,Large Language Models (LLMs) のコンテキスト内学習機能を活用して,高階の敵文書を生成する新しいブラックボックス攻撃フレームワークであるFew-Shot Adversarial Prompting(FSAP)を紹介する。
既存の文書のトークンレベルの摂動や手動による書き直しに依存する従来のアプローチとは異なり、FSAPは、グラデーションアクセスや内部モデルインスツルメンテーションを必要とせず、数発のプロンプトを通じて完全に逆攻撃を定式化している。
FSAPは、以前に観測された有害な事例の小さなサポートセットにLLMを条件付けすることにより、文法的に流動的でトポロジー的に整合した文書を合成し、偽情報や誤解を招く情報を微妙に埋め込み、真正な内容に対して競争的にランク付けする。
FSAPを2つのモードでインスタンス化する: FSAP-IntraQ, FSAP-InterQ, FSAP-InterQ, FSAP-InterQ。
TREC 2020と2021 Health Misinformation Tracksの実験では、4つの多様なニューラルネットワークランキングモデルを用いて、FSAPが生成した文書が、信頼できる、事実的正確な文書を一貫して上回ることを示した。
さらに,これらの対向出力は強い姿勢アライメントと低検出性を示し,ニューラルネットワークシステムに対する現実的かつスケーラブルな脅威を呈することを示した。
FSAPは、プロプライエタリとオープンソースの両方のLLMを効果的に一般化する。
関連論文リスト
- Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。
本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:42:26Z) - Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks [21.930305838969133]
textbfFuzzed textbfRandomized textbfFRS (textbfFRS)を導入した。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
論文 参考訳(メタデータ) (2025-02-09T12:03:59Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual
Robustness [56.263482420177915]
我々は,既存のシステムの忠実さを,事実的堅牢性という新たな視点から研究する。
本研究では,新たなトレーニング戦略,すなわちFRSUMを提案し,そのモデルに対して,暗黙の対角的サンプルと暗黙の対向的摂動の両方を防御するように指導する。
論文 参考訳(メタデータ) (2022-11-01T06:09:00Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。