論文の概要: BadJudge: Backdoor Vulnerabilities of LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2503.00596v1
- Date: Sat, 01 Mar 2025 19:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:47.648425
- Title: BadJudge: Backdoor Vulnerabilities of LLM-as-a-Judge
- Title(参考訳): BadJudge: LLM-as-a-Judgeのバックドア脆弱性
- Authors: Terry Tong, Fei Wang, Zhe Zhao, Muhao Chen,
- Abstract要約: 本稿では, LLM-as-a-Judge評価体制に対する新たなバックドア脅威を提案する。
評価者トレーニングデータの1%を単一のトークンバックドア中毒が、正当性スコアに対して相手のスコアを3倍にする。
評価者のトレーニングデータの10%を中毒にすることで、有害なプロンプトを非毒性の89%と誤分類するために毒性審査員(ガードレール)を制御し、RAGの文書再検査官は、その97%を最初に有毒な文書にランク付けした。
- 参考スコア(独自算出の注目度): 31.81985104209528
- License:
- Abstract: This paper proposes a novel backdoor threat attacking the LLM-as-a-Judge evaluation regime, where the adversary controls both the candidate and evaluator model. The backdoored evaluator victimizes benign users by unfairly assigning inflated scores to adversary. A trivial single token backdoor poisoning 1% of the evaluator training data triples the adversary's score with respect to their legitimate score. We systematically categorize levels of data access corresponding to three real-world settings, (1) web poisoning, (2) malicious annotator, and (3) weight poisoning. These regimes reflect a weak to strong escalation of data access that highly correlates with attack severity. Under the weakest assumptions - web poisoning (1), the adversary still induces a 20% score inflation. Likewise, in the (3) weight poisoning regime, the stronger assumptions enable the adversary to inflate their scores from 1.5/5 to 4.9/5. The backdoor threat generalizes across different evaluator architectures, trigger designs, evaluation tasks, and poisoning rates. By poisoning 10% of the evaluator training data, we control toxicity judges (Guardrails) to misclassify toxic prompts as non-toxic 89% of the time, and document reranker judges in RAG to rank the poisoned document first 97% of the time. LLM-as-a-Judge is uniquely positioned at the intersection of ethics and technology, where social implications of mislead model selection and evaluation constrain the available defensive tools. Amidst these challenges, model merging emerges as a principled tool to offset the backdoor, reducing ASR to near 0% whilst maintaining SOTA performance. Model merging's low computational cost and convenient integration into the current LLM Judge training pipeline position it as a promising avenue for backdoor mitigation in the LLM-as-a-Judge setting.
- Abstract(参考訳): 本稿では,LLM-as-a-Judge評価体制を攻撃し,候補モデルと評価モデルの両方を敵が制御する新たなバックドア脅威を提案する。
バックドア評価器は、不当に膨らませたスコアを相手に割り当てることで、良心的なユーザを犠牲にする。
評価者トレーニングデータの1%の自明なシングルトークンバックドア中毒は、その正当なスコアに対して相手のスコアを3倍にする。
我々は,(1)ウェブ中毒,(2)悪意アノテータ,(3)体重中毒の3つの実世界の設定に対応するデータアクセスレベルを体系的に分類した。
これらの体制は、攻撃の重大さと非常に相関するデータアクセスの弱さと強烈なエスカレーションを反映している。
最も弱い仮定:ウェブ中毒(1)では、敵は依然として20%のインフレーションを誘導する。
同様に、(3)体重中毒の体制では、強い仮定により、敵はスコアを1.5/5から4.9/5に膨らませることができる。
バックドアの脅威は、さまざまな評価アーキテクチャ、設計のトリガー、評価タスク、中毒率を一般化する。
評価者のトレーニングデータの10%を中毒にすることで、有害なプロンプトを非毒性の89%と誤分類するために毒性審査員(ガードレール)を制御し、RAGの文書再検査官は、その97%を最初に有毒な文書にランク付けした。
LLM-as-a-Judgeは倫理と技術の交差に特有な位置を占めており、ここではミスリードモデルの選択と評価の社会的影響が利用可能な防御ツールを制限している。
これらの課題の中で、モデルマージはバックドアをオフセットする原則的なツールとして現れ、SOTA性能を維持しながらASRを0%近く削減する。
モデルマージの低計算コストと現在のLLMジャッジ訓練パイプラインへの便利な統合により、LLM-as-a-Judge設定におけるバックドア緩和のための有望な道として位置づけられている。
関連論文リスト
- Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems [40.131588857153275]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:03:07Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文 参考訳(メタデータ) (2023-09-10T21:36:38Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - BaFFLe: Backdoor detection via Feedback-based Federated Learning [3.6895394817068357]
フィードバックに基づくフェデレーション学習(BAFFLE)によるバックドア検出を提案する。
BAFFLEは,最先端のバックドア攻撃を100%,偽陽性率5%以下で確実に検出できることを示す。
論文 参考訳(メタデータ) (2020-11-04T07:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。