論文の概要: Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges
- arxiv url: http://arxiv.org/abs/2605.26156v1
- Date: Sun, 24 May 2026 05:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.203518
- Title: Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges
- Title(参考訳): ビーズをバグに変える: LLM判事に対するバンド誘導型操作攻撃
- Authors: Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong,
- Abstract要約: LLM審査員を誤解させるためにセマンティクスを保存する編集を学習するブラックボックスの敵対的フレームワークであるBITEを紹介する。
BITEは65%を超える攻撃成功率を獲得し、9ポイントのスケールでスコアを1-2ポイント上げる。
LLM-as-a-judgeパラダイムの根本的な弱点を明らかにし,ロバストでアタック・アウェアな評価を動機づけた。
- 参考スコア(独自算出の注目度): 65.92623263645139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a black-box adversarial framework that learns semantics-preserving edits to mislead an LLM judge and artificially inflate the scores it assigns. We cast the selection of stylistic edits as a contextual bandit problem and use a LinUCB policy to adaptively choose edits that maximize the judge's score without access to model parameters or gradients. Empirically, we test BITE across a diverse range of LLM judges and tasks, including both pointwise and pairwise comparisons on chatbot leaderboards and AI-reviewer benchmarks. BITE achieves an attack success rate exceeding 65% and raises scores by 1-2 points on a 9-point scale, all while preserving semantic equivalence. We further assess the attack's stealthiness, showing that BITE evades standard style-control methods and several detection baselines. Our findings expose a fundamental weakness in the LLM-as-a-judge paradigm and motivate robust, attack-aware evaluation. Our code is available at https://github.com/xianglinyang/llm-as-a-judge-attack.
- Abstract(参考訳): LLMの審査員は、冗長性や特定の文構造を優先するなど、既知のスタイルバイアスは、未調査のセキュリティ脆弱性を提示する。
本研究では, BITE (BIas exploraTion and Exploitation) を導入し, セマンティクス保存編集を学習し, LLM審査員を誤解させ, 割り当てしたスコアを人工的にインフレーションする。
我々は、文脈的盗聴問題としてスタイリスティックな編集の選び方を選択し、LinUCBポリシーを用いて、モデルパラメータや勾配にアクセスせずに、審査員のスコアを最大化する編集を適応的に選択する。
経験的には、チャットボットのリーダーボードとAI-リビューアベンチマークのポイントワイドとペアワイドの比較を含む、さまざまなLLMの審査員とタスクでBITEをテストしています。
BITEは65%を超える攻撃成功率を達成し、セマンティックな等価性を保ちながら、9ポイントスケールでスコアを1-2ポイント上げる。
さらに,攻撃のステルス性を評価し,BITEが標準的なスタイル制御手法や検出基準を回避していることを示す。
LLM-as-a-judgeパラダイムの根本的な弱点を明らかにし,ロバストでアタック・アウェアな評価を動機づけた。
私たちのコードはhttps://github.com/xianglinyang/llm-as-a-judge- attackで利用可能です。
関連論文リスト
- A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Fooling LLM graders into giving better grades through neural activity guided adversarial prompting [26.164839501935973]
本稿では,AI評価システムにおけるそのようなバイアスを明らかにするための体系的手法を提案する。
我々のアプローチはまず、歪んだ決定結果を予測する隠れた神経活動パターンを特定する。
この組み合わせによって、大きな言語モデルグレーダーを効果的に騙して、人間よりもはるかに高いグレードを割り当てることができることを実証する。
論文 参考訳(メタデータ) (2024-12-17T19:08:22Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。