論文の概要: Can You Trick the Grader? Adversarial Persuasion of LLM Judges
- arxiv url: http://arxiv.org/abs/2508.07805v1
- Date: Mon, 11 Aug 2025 09:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.032982
- Title: Can You Trick the Grader? Adversarial Persuasion of LLM Judges
- Title(参考訳): グレーダをトリックできるか? LLM判事の反論
- Authors: Yerin Hwang, Dongryeol Lee, Taegwan Kang, Yongil Kim, Kyomin Jung,
- Abstract要約: この研究は、戦略的に組み込まれた説得言語が数学的推論タスクを評価する際にLCMの判断に偏りがあることを初めて明らかにした。
我々は,7つの説得技法(マジョリティ,一貫性,フラタリー,互恵性,ピティ,権威,アイデンティティ)を定式化し,それらと全く同じ応答に組み込む。
説得力のある言語は、LCMの判断者が不正確な解に膨らませたスコアを、平均で最大8%の精度で割り当てることを可能にし、一貫性は最も深刻な歪みを引き起こす。
- 参考スコア(独自算出の注目度): 15.386741140145205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models take on growing roles as automated evaluators in practical settings, a critical question arises: Can individuals persuade an LLM judge to assign unfairly high scores? This study is the first to reveal that strategically embedded persuasive language can bias LLM judges when scoring mathematical reasoning tasks, where correctness should be independent of stylistic variation. Grounded in Aristotle's rhetorical principles, we formalize seven persuasion techniques (Majority, Consistency, Flattery, Reciprocity, Pity, Authority, Identity) and embed them into otherwise identical responses. Across six math benchmarks, we find that persuasive language leads LLM judges to assign inflated scores to incorrect solutions, by up to 8% on average, with Consistency causing the most severe distortion. Notably, increasing model size does not substantially mitigate this vulnerability. Further analysis demonstrates that combining multiple persuasion techniques amplifies the bias, and pairwise evaluation is likewise susceptible. Moreover, the persuasive effect persists under counter prompting strategies, highlighting a critical vulnerability in LLM-as-a-Judge pipelines and underscoring the need for robust defenses against persuasion-based attacks.
- Abstract(参考訳): 大規模言語モデルは、実践的な設定において自動評価者としての役割を拡大するにつれて、重要な疑問が生じる: 個人はLLM判事に不公平に高いスコアを割り当てるよう説得できるだろうか?
この研究は、戦略的に埋め込まれた説得言語が、数学的推論タスクを評価する際にLCMの判断に偏りがあることを初めて明らかにした。
アリストテレスの修辞的原理に基づいて、我々は7つの説得技法(主観性、一貫性、フラタリー、互恵性、慈悲性、権威、アイデンティティ)を定式化し、それらと全く同じ反応に埋め込む。
6つのベンチマークで、説得力のある言語は、LLMの審査員が不正確な解に膨らませたスコアを平均で最大8%割り当て、一貫性は最も激しい歪みを引き起こすことがわかった。
特に、モデルサイズの増加は、この脆弱性を著しく軽減しない。
さらに分析により、複数の説得手法を組み合わせることでバイアスが増幅され、ペアワイズ評価も同様に感受性を持つことが示された。
さらに、説得効果はカウンタープロンプト戦略の下で持続し、LSM-as-a-Judgeパイプラインの重大な脆弱性を強調し、説得ベースの攻撃に対する堅牢な防御の必要性を強調している。
関連論文リスト
- It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics [5.418014947856176]
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
論文 参考訳(メタデータ) (2025-06-03T13:37:51Z) - When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文 参考訳(メタデータ) (2025-03-03T18:53:21Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。