論文の概要: Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15436v1
- Date: Wed, 21 Jan 2026 20:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.40598
- Title: Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models
- Title(参考訳): 典型的なシコファンではない:大規模言語モデルにおけるシコファンシーのエラスティブな性質
- Authors: Shahar Ben Natan, Oren Tsur,
- Abstract要約: そこで本研究では, LLMの薬効を直接的, 中立的に評価する新しい手法を提案する。
LLM-as-a-judge(英語版)の使用は、賭け設定におけるゼロサムゲームとしての梅毒の評価である。
- 参考スコア(独自算出の注目度): 2.1700203922407493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel way to evaluate sycophancy of LLMs in a direct and neutral way, mitigating various forms of uncontrolled bias, noise, or manipulative language, deliberately injected to prompts in prior works. A key novelty in our approach is the use of LLM-as-a-judge, evaluation of sycophancy as a zero-sum game in a bet setting. Under this framework, sycophancy serves one individual (the user) while explicitly incurring cost on another. Comparing four leading models - Gemini 2.5 Pro, ChatGpt 4o, Mistral-Large-Instruct-2411, and Claude Sonnet 3.7 - we find that while all models exhibit sycophantic tendencies in the common setting, in which sycophancy is self-serving to the user and incurs no cost on others, Claude and Mistral exhibit "moral remorse" and over-compensate for their sycophancy in case it explicitly harms a third party. Additionally, we observed that all models are biased toward the answer proposed last. Crucially, we find that these two phenomena are not independent; sycophancy and recency bias interact to produce `constructive interference' effect, where the tendency to agree with the user is exacerbated when the user's opinion is presented last.
- Abstract(参考訳): 本研究では, LLMの症状を直接的, 中立的に評価し, 制御不能なバイアス, ノイズ, あるいは操作言語を軽減し, 先行研究において意図的にインジェクトする手法を提案する。
LLM-as-a-judge(英語版)を用いることで、賭け設定におけるゼロサムゲームとしてのサイコフィナンシーの評価が可能となる。
この枠組みの下では、梅毒は一人の個人(ユーザー)に役立ち、他方のコストを明示的に引き起こす。
Gemini 2.5 Pro、ChatGpt 4o、Mistral-Large-Instruct-2411、Claude Sonnet 3.7の4つの主要なモデルを比較すると、すべてのモデルが共通の環境で梅毒の傾向を示すのに対して、梅毒はユーザーに自給自足し、他人に費用をかけないのに対して、ClaudeとMistralは「道徳的な反省」を示し、サードパーティに悪影響を及ぼす場合、梅毒を過度に補償する。
さらに、すべてのモデルが最後に提案された回答に偏っていることもわかりました。
要は,これら2つの現象は独立したものではないこと,すなわち,ユーザの意見が最後に提示されると,ユーザの意見に同意する傾向が悪化する「建設的干渉」効果が生じること,である。
関連論文リスト
- When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - Measuring Sycophancy of Language Models in Multi-turn Dialogues [33.875038658886986]
SYCON Benchは、マルチターン・自由形式の会話環境におけるサイコフィナンシーを評価するための新しいベンチマークである。
SYCON Benchを3つの現実シナリオにわたる17の大規模言語モデルに適用すると、梅毒は相変わらず障害モードであることがわかる。
論文 参考訳(メタデータ) (2025-05-28T14:05:46Z) - ELEPHANT: Measuring and understanding social sycophancy in LLMs [31.88430788417527]
本稿では,ユーザの顔の過剰な保存を特徴とする社会性梅毒について紹介する。
ベンチマークを11モデルに適用すると、LSMは社会的梅毒の頻度が常に高いことを示す。
論文 参考訳(メタデータ) (2025-05-20T06:45:17Z) - Where Fact Ends and Fairness Begins: Redefining AI Bias Evaluation through Cognitive Biases [77.3489598315447]
事実と公正の境界を識別することは有意義な公正性評価に不可欠である,と我々は主張する。
Fact-or-Fair は (i) 客観的なクエリを記述的, 事実に基づく判断, (ii) 主観的クエリを規範的, 公平性に基づく判断に整合させたベンチマークである。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。