論文の概要: Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models
- arxiv url: http://arxiv.org/abs/2412.18770v1
- Date: Wed, 25 Dec 2024 04:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:19.244997
- Title: Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models
- Title(参考訳): アタック・イン・ザ・チェーン:ブラックボックス・ニューラルランキング・モデルに対する攻撃のための大規模言語モデルのブートストラップ
- Authors: Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng,
- Abstract要約: 本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 111.58315434849047
- License:
- Abstract: Neural ranking models (NRMs) have been shown to be highly effective in terms of retrieval performance. Unfortunately, they have also displayed a higher degree of sensitivity to attacks than previous generation models. To help expose and address this lack of robustness, we introduce a novel ranking attack framework named Attack-in-the-Chain, which tracks interactions between large language models (LLMs) and NRMs based on chain-of-thought (CoT) prompting to generate adversarial examples under black-box settings. Our approach starts by identifying anchor documents with higher ranking positions than the target document as nodes in the reasoning chain. We then dynamically assign the number of perturbation words to each node and prompt LLMs to execute attacks. Finally, we verify the attack performance of all nodes at each reasoning step and proceed to generate the next reasoning step. Empirical results on two web search benchmarks show the effectiveness of our method.
- Abstract(参考訳): ニューラルランキングモデル (NRM) は, 検索性能において極めて有効であることが示されている。
残念ながら、以前の世代モデルよりも攻撃に対する感度が高いことも示している。
このロバスト性の欠如を露呈し対処するために,大規模言語モデル (LLM) と NRM 間の相互作用を追跡する新たなランキングアタックフレームワークであるAttack-in-the-Chain を導入する。
提案手法は,対象文書よりも上位に位置するアンカー文書を推論チェーンのノードとして同定することから始まる。
次に、各ノードに摂動単語の数を動的に割り当て、LSMに攻撃の実行を促す。
最後に、各推論ステップにおける全てのノードの攻撃性能を確認し、次の推論ステップを生成する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Sparse Vicious Attacks on Graph Neural Networks [3.246307337376473]
この研究は、GNNベースのリンク予測モデルに対する特定のホワイトボックス攻撃に焦点を当てている。
本稿では,このタイプのリンク予測攻撃をマウントする新しいフレームワークと手法であるSAVAGEを提案する。
実世界のデータセットと合成データセットを用いて行った実験は、SAVAGEを通じて実施された敵攻撃が実際に高い攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2022-09-20T12:51:24Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Improving Query Efficiency of Black-box Adversarial Attack [75.71530208862319]
ニューラルプロセスに基づくブラックボックス対逆攻撃(NP-Attack)を提案する。
NP-Attackはブラックボックス設定でクエリ数を大幅に削減できる。
論文 参考訳(メタデータ) (2020-09-24T06:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。