論文の概要: Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs
- arxiv url: http://arxiv.org/abs/2511.17220v1
- Date: Fri, 21 Nov 2025 13:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.027192
- Title: Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs
- Title(参考訳): Parrot: アウトプット真実の説得と合意ロバストネス評価 - LLMのシクロファンシーロバストネスベンチマーク
- Authors: Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli,
- Abstract要約: PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents PARROT (Persuasion and Agreement Robustness Rating of Output Truth), a robustness focused framework designed to measure the degradation in accuracy that occurs under social pressure exerted on users through authority and persuasion in large language models (LLMs) the phenomenon of sycophancy (excessive conformity). PARROT (i) isolates causal effects by comparing the neutral version of the same question with an authoritatively false version using a double-blind evaluation, (ii) quantifies confidence shifts toward the correct and imposed false responses using log-likelihood-based calibration tracking, and (iii) systematically classifies failure modes (e.g., robust correct, sycophantic agreement, reinforced error, stubborn error, self-correction, etc.) using an eight-state behavioral taxonomy. We evaluated 22 models using 1,302 MMLU-style multiple-choice questions across 13 domains and domain-specific authority templates. Findings show marked heterogeneity: advanced models (e.g., GPT-5, GPT-4.1, Claude Sonnet 4.5) exhibit low "follow rates" ($\leq 11\%$, GPT-5: 4\%) and minimal accuracy loss, while older/smaller models show severe epistemic collapse (GPT-4: 80\%, Qwen 2.5-1.5B: 94\%). The danger is not limited to response changes; weak models reduce confidence in the correct response while increasing confidence in the imposed incorrect response. While international law and global knowledge at the domain level exhibit high fragility, elementary mathematics is relatively resilient. Consequently, we argue that the goal of "resistance to overfitting pressure" should be addressed as a primary objective alongside accuracy, harm avoidance, and privacy for safe deployment in the real world.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)の権威と説得を通じてユーザに与える社会的圧力の下で発生する正確さの劣化を測定することを目的とした,強靭性重視フレームワークであるPARROT(Persuasion and Agreement Robustness Rating of Output Truth)について述べる。
パルロット
一 二重盲検評価を用いて、同一質問の中立版と権威的に偽版とを比較して因果効果を分離する。
二 ログライクリフに基づく校正追跡を用いて、正誤応答に対する信頼度変化を定量化し、
三 八状態の行動分類を用いて、障害モード(例えば、頑健な正当性、幻覚的合意、強化エラー、頑健な誤り、自己補正等)を体系的に分類する。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価した。
高度なモデル (g , GPT-5, GPT-4.1, Claude Sonnet 4.5) は低い"フォローレート" (\leq 11\%$, GPT-5: 4\%) と最小限の精度の損失を示し、一方、より古いモデルと小さなモデルは深刻なてんかん崩壊を示す(GPT-4: 80\%, Qwen 2.5-1.5B: 94\%)。
弱いモデルは正しい反応に対する信頼を減らし、課された誤った反応に対する信頼を増す。
国際法と領域レベルでのグローバルな知識は高い脆弱性を示すが、初等数学は比較的弾力性がある。
したがって、我々は「過度な圧力への抵抗」という目標は、現実世界の安全な配置のための正確性、危険回避、プライバシーと並行して、主要な目的として扱うべきであると論じる。
関連論文リスト
- The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models [1.4323566945483497]
本稿では,大規模言語モデルにおける「カメレオン行動」に関する最初の体系的研究について述べる。
我々は最先端のシステムに根本的な欠陥を露呈する。
情報源の再使用率と信頼性の相関は統計的に有意である。
論文 参考訳(メタデータ) (2025-10-19T04:51:14Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Causally-Enhanced Reinforcement Policy Optimization [36.523007244998695]
Causally-Enhanced Policy Optimization (CE-PO)は、因果一貫性のための異なるプロキシでポリシー最適化を強化する、ドロップイン報酬形成フレームワークである。
CE-POは、ヤコビアンに基づく感性によるモデル内部の影響を推定し、これらのシグナルを反実的に硬化させてニュアンスを抑えるとともに、結果のコヒーレンススコアをタスク精度フィードバックと融合させる。
4つのデータセットにわたる実験結果から、CE-POは平均で5.49%の精度(最大9.58%)を向上し、相関因果フリップや光対実編集による堅牢性を改善した。
論文 参考訳(メタデータ) (2025-09-27T04:10:16Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - The Confidence Paradox: Can LLM Know When It's Wrong [5.445980143646736]
Document Visual Question Answering (DocVQA)モデルは、しばしば過信または倫理的に不一致な応答を生成する。
重み付き損失とコントラスト学習を用いてモデルの信頼度と正しさを一致させるモデルに依存しない自己教師型フレームワークであるHonestVQAを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:06:54Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。