論文の概要: Can You Trick the Grader? Adversarial Persuasion of LLM Judges
- arxiv url: http://arxiv.org/abs/2508.07805v1
- Date: Mon, 11 Aug 2025 09:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.032982
- Title: Can You Trick the Grader? Adversarial Persuasion of LLM Judges
- Title(参考訳): グレーダをトリックできるか? LLM判事の反論
- Authors: Yerin Hwang, Dongryeol Lee, Taegwan Kang, Yongil Kim, Kyomin Jung,
- Abstract要約: この研究は、戦略的に組み込まれた説得言語が数学的推論タスクを評価する際にLCMの判断に偏りがあることを初めて明らかにした。
我々は,7つの説得技法(マジョリティ,一貫性,フラタリー,互恵性,ピティ,権威,アイデンティティ)を定式化し,それらと全く同じ応答に組み込む。
説得力のある言語は、LCMの判断者が不正確な解に膨らませたスコアを、平均で最大8%の精度で割り当てることを可能にし、一貫性は最も深刻な歪みを引き起こす。
- 参考スコア(独自算出の注目度): 15.386741140145205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models take on growing roles as automated evaluators in practical settings, a critical question arises: Can individuals persuade an LLM judge to assign unfairly high scores? This study is the first to reveal that strategically embedded persuasive language can bias LLM judges when scoring mathematical reasoning tasks, where correctness should be independent of stylistic variation. Grounded in Aristotle's rhetorical principles, we formalize seven persuasion techniques (Majority, Consistency, Flattery, Reciprocity, Pity, Authority, Identity) and embed them into otherwise identical responses. Across six math benchmarks, we find that persuasive language leads LLM judges to assign inflated scores to incorrect solutions, by up to 8% on average, with Consistency causing the most severe distortion. Notably, increasing model size does not substantially mitigate this vulnerability. Further analysis demonstrates that combining multiple persuasion techniques amplifies the bias, and pairwise evaluation is likewise susceptible. Moreover, the persuasive effect persists under counter prompting strategies, highlighting a critical vulnerability in LLM-as-a-Judge pipelines and underscoring the need for robust defenses against persuasion-based attacks.
- Abstract(参考訳): 大規模言語モデルは、実践的な設定において自動評価者としての役割を拡大するにつれて、重要な疑問が生じる: 個人はLLM判事に不公平に高いスコアを割り当てるよう説得できるだろうか?
この研究は、戦略的に埋め込まれた説得言語が、数学的推論タスクを評価する際にLCMの判断に偏りがあることを初めて明らかにした。
アリストテレスの修辞的原理に基づいて、我々は7つの説得技法(主観性、一貫性、フラタリー、互恵性、慈悲性、権威、アイデンティティ)を定式化し、それらと全く同じ反応に埋め込む。
6つのベンチマークで、説得力のある言語は、LLMの審査員が不正確な解に膨らませたスコアを平均で最大8%割り当て、一貫性は最も激しい歪みを引き起こすことがわかった。
特に、モデルサイズの増加は、この脆弱性を著しく軽減しない。
さらに分析により、複数の説得手法を組み合わせることでバイアスが増幅され、ペアワイズ評価も同様に感受性を持つことが示された。
さらに、説得効果はカウンタープロンプト戦略の下で持続し、LSM-as-a-Judgeパイプラインの重大な脆弱性を強調し、説得ベースの攻撃に対する堅牢な防御の必要性を強調している。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions [8.026492468995187]
小さなモデルは極端なコンプライアンスを示し、最初の説得的なターンで80%以上の信念の変化が生じる。
メタ認知は、堅牢性を高めるのではなく、信念の侵食を加速することで脆弱性を増大させる。
これらの知見は、現在のロバストネス介入のモデル依存性のかなりの限界を浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-20T04:43:55Z) - MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Persuasiveness and Bias in LLM: Investigating the Impact of Persuasiveness and Reinforcement of Bias in Language Models [0.0]
本研究では,Large Language Models(LLMs)における説得とバイアスの相互作用について検討する。
LLMは人間のような説得力のあるテキストを生成し、コンテンツ作成、意思決定支援、ユーザーインタラクションに広く利用されている。
我々は、ペルソナに基づくモデルが事実に基づく主張を説得できるかどうかをテストする。
論文 参考訳(メタデータ) (2025-08-13T13:30:49Z) - It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics [5.418014947856176]
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
論文 参考訳(メタデータ) (2025-06-03T13:37:51Z) - When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文 参考訳(メタデータ) (2025-03-03T18:53:21Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。