論文の概要: Quantifying Sycophancy as Deviations from Bayesian Rationality in LLMs
- arxiv url: http://arxiv.org/abs/2508.16846v1
- Date: Sat, 23 Aug 2025 00:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.208023
- Title: Quantifying Sycophancy as Deviations from Bayesian Rationality in LLMs
- Title(参考訳): LLMにおけるベイズ性からの逸脱としてのシクロファンシーの定量化
- Authors: Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani,
- Abstract要約: Sycophancy, or overly agreeable or flattering behavior, is documented issue in large language model (LLMs)
ベイジアンフレームワークを用いて、ユーザの視点で提示された合理的な行動からの逸脱として、梅毒を定量化する。
我々は,3つの異なるタスク,オープンソースとクローズド LLM の組み合わせ,および2つの異なる方法について,サイコファンシーを探索する手法について検討した。
- 参考スコア(独自算出の注目度): 26.346357679861228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophancy, or overly agreeable or flattering behavior, is a documented issue in large language models (LLMs), and is critical to understand in the context of human/AI collaboration. Prior works typically quantify sycophancy by measuring shifts in behavior or impacts on accuracy, but neither metric characterizes shifts in rationality, and accuracy measures can only be used in scenarios with a known ground truth. In this work, we utilize a Bayesian framework to quantify sycophancy as deviations from rational behavior when presented with user perspectives, thus distinguishing between rational and irrational updates based on the introduction of user perspectives. In comparison to other methods, this approach allows us to characterize excessive behavioral shifts, even for tasks that involve inherent uncertainty or do not have a ground truth. We study sycophancy for 3 different tasks, a combination of open-source and closed LLMs, and two different methods for probing sycophancy. We also experiment with multiple methods for eliciting probability judgments from LLMs. We hypothesize that probing LLMs for sycophancy will cause deviations in LLMs' predicted posteriors that will lead to increased Bayesian error. Our findings indicate that: 1) LLMs are not Bayesian rational, 2) probing for sycophancy results in significant increases to the predicted posterior in favor of the steered outcome, 3) sycophancy sometimes results in increased Bayesian error, and in a small number of cases actually decreases error, and 4) changes in Bayesian error due to sycophancy are not strongly correlated in Brier score, suggesting that studying the impact of sycophancy on ground truth alone does not fully capture errors in reasoning due to sycophancy.
- Abstract(参考訳): サイコファシー(英: Sycophancy)は、大きな言語モデル(LLM)において文書化された問題であり、人間とAIのコラボレーションの文脈において理解することが重要である。
以前の研究は、行動の変化や精度への影響を計測することで、典型的にはサイコフィケーシーを定量化するが、どちらの計量も合理性の変化を特徴づけておらず、精度の計測は既知の基底真理を持つシナリオでしか利用できない。
本研究では,ベイズ的枠組みを用いて,ユーザの視点を提示する際の合理的行動からの逸脱として梅毒を定量化し,ユーザ視点の導入に基づく合理的かつ不合理な更新を区別する。
他の手法と比較して、本手法は、本質的な不確実性を伴うタスクや根底的な真実を持たないタスクであっても、過度な行動シフトを特徴付けることができる。
我々は,3つの異なるタスク,オープンソースとクローズド LLM の組み合わせ,および2つの異なる方法について,サイコファンシーを探索する手法について検討した。
また,LSMから確率判断を抽出する複数の手法についても実験を行った。
我々は, LLMs を梅毒に用いた場合, LLMs の後方への偏差がベイズ誤差を増大させるという仮説を立てた。
私たちの発見は以下のとおりである。
1) LLM はベイズ的合理的ではない。
2) 抗酸菌症の調査では, 後部が有意に増加し, ステアリングの結果が好まれる。
3) 梅毒症は時としてベイズ誤差を増大させ, 少数の症例では実際に誤りを減少させる。
4) サイコファンシーによるベイズ誤差の変化は, ブラースコアでは強く相関せず, サイコファンシーが地上の真実のみに与える影響を研究することは, サイコファンシーによる推論における誤りを十分に捉えていないことを示唆している。
関連論文リスト
- When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。
LLM が ICL を用いて,ベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T18:59:23Z) - MaxSup: Overcoming Representation Collapse in Label Smoothing [52.66247931969715]
ラベル平滑化(LS)は、ニューラルネットワーク予測における過信を減らすために広く採用されている。
LSコンパクトは、過剰に厳密なクラスタに表現を特徴付け、クラス内の多様性を希薄にする。
正しい予測と誤予測の両方に一様正則化を適用するMax Suppression(MaxSup)を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:10:34Z) - Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。