論文の概要: BASIL: Bayesian Assessment of Sycophancy in LLMs
- arxiv url: http://arxiv.org/abs/2508.16846v2
- Date: Fri, 17 Oct 2025 19:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.335077
- Title: BASIL: Bayesian Assessment of Sycophancy in LLMs
- Title(参考訳): BASIL : LLMにおけるSycophancyのベイズ的評価
- Authors: Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani,
- Abstract要約: Sycophancyは、人間とAIのコラボレーションの文脈で理解するために重要である。
既存のLLMにおけるサイコファンシーの研究方法は、記述的(サイコファンシーが誘発されたときの学習行動の変化)または規範的である。
LLMの合理性に対する梅毒の規範的影響を研究するためのベイズ的枠組みを導入する。
- 参考スコア(独自算出の注目度): 26.346357679861228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophancy (overly agreeable or flattering behavior) is critical to understand in the context of human-AI collaboration, especially in decision-making settings like health, law, and education. Existing methods for studying sycophancy in LLMs are either descriptive (study behavior change when sycophancy is elicited) or normative (provide values-based judgment on behavior change). Together, these approaches help us understand the extent, and impacts, of sycophancy. However, existing normative approaches only apply for objective tasks where ground-truth data exists, ignoring the natural subjectivity in many NLP tasks. Drawing from behavioral economics and rational decision theory, we introduce an Bayesian framework to study the normative effects of sycophancy on rationality in LLMs, without requiring labeled ground-truth. Using this interdisciplinary framework, we study sycophantic behavior in multiple LLM baselines across three different tasks, experimenting with various methods for eliciting sycophancy and obtaining probability judgments from LLMs. We find significant evidence of sycophancy in our experiments (7 of 8 baselines for one of our probing techniques), and observe that sycophancy is more likely to reduce rationality than it is to increase rationality in LLMs' decisions when they are directly probed for probabilities (2 out of 4 baselines show significant increases overall).
- Abstract(参考訳): 特に健康、法律、教育といった意思決定環境において、人間とAIのコラボレーションの文脈において、シコファンシー(過度に同意または平らな行動)を理解することが不可欠である。
既存のLLMにおけるサイコファンシーの研究方法は、記述的(サイコファンシーが誘発されたときの学習行動変化)または規範的(行動変化に対する価値に基づく判断)である。
これらのアプローチは、梅毒の程度や影響を理解するのに役立ちます。
しかし、既存の規範的アプローチは、多くのNLPタスクの自然な主観性を無視して、基礎的真理データが存在する客観的なタスクにのみ適用される。
行動経済学や合理的決定理論を参考に,LLMの合理性に対するサイコファンシーの規範的影響を研究するためのベイズ的枠組みを導入する。
この学際的枠組みを用いて,3つのタスクにまたがる複数のLCMベースラインにおけるサイコファンティックな行動について検討し,様々な手法を用いてサイコファンシーを抽出し,LSMから確率判定を行う。
提案手法の1つである8つの基準線のうち7つは, 確率を直接探究した場合, LLMの判断の合理性を高めることよりも, 合理的性を低下させる可能性が示唆された(4つの基準線のうち2つは, 総合的に有意な増加を示す)。
関連論文リスト
- When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。
LLM が ICL を用いて,ベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T18:59:23Z) - MaxSup: Overcoming Representation Collapse in Label Smoothing [52.66247931969715]
ラベル平滑化(LS)は、ニューラルネットワーク予測における過信を減らすために広く採用されている。
LSコンパクトは、過剰に厳密なクラスタに表現を特徴付け、クラス内の多様性を希薄にする。
正しい予測と誤予測の両方に一様正則化を適用するMax Suppression(MaxSup)を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:10:34Z) - Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。