論文の概要: BASIL: Bayesian Assessment of Sycophancy in LLMs
- arxiv url: http://arxiv.org/abs/2508.16846v2
- Date: Fri, 17 Oct 2025 19:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.335077
- Title: BASIL: Bayesian Assessment of Sycophancy in LLMs
- Title(参考訳): BASIL : LLMにおけるSycophancyのベイズ的評価
- Authors: Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani,
- Abstract要約: Sycophancyは、人間とAIのコラボレーションの文脈で理解するために重要である。
既存のLLMにおけるサイコファンシーの研究方法は、記述的(サイコファンシーが誘発されたときの学習行動の変化)または規範的である。
LLMの合理性に対する梅毒の規範的影響を研究するためのベイズ的枠組みを導入する。
- 参考スコア(独自算出の注目度): 26.346357679861228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophancy (overly agreeable or flattering behavior) is critical to understand in the context of human-AI collaboration, especially in decision-making settings like health, law, and education. Existing methods for studying sycophancy in LLMs are either descriptive (study behavior change when sycophancy is elicited) or normative (provide values-based judgment on behavior change). Together, these approaches help us understand the extent, and impacts, of sycophancy. However, existing normative approaches only apply for objective tasks where ground-truth data exists, ignoring the natural subjectivity in many NLP tasks. Drawing from behavioral economics and rational decision theory, we introduce an Bayesian framework to study the normative effects of sycophancy on rationality in LLMs, without requiring labeled ground-truth. Using this interdisciplinary framework, we study sycophantic behavior in multiple LLM baselines across three different tasks, experimenting with various methods for eliciting sycophancy and obtaining probability judgments from LLMs. We find significant evidence of sycophancy in our experiments (7 of 8 baselines for one of our probing techniques), and observe that sycophancy is more likely to reduce rationality than it is to increase rationality in LLMs' decisions when they are directly probed for probabilities (2 out of 4 baselines show significant increases overall).
- Abstract(参考訳): 特に健康、法律、教育といった意思決定環境において、人間とAIのコラボレーションの文脈において、シコファンシー(過度に同意または平らな行動)を理解することが不可欠である。
既存のLLMにおけるサイコファンシーの研究方法は、記述的(サイコファンシーが誘発されたときの学習行動変化)または規範的(行動変化に対する価値に基づく判断)である。
これらのアプローチは、梅毒の程度や影響を理解するのに役立ちます。
しかし、既存の規範的アプローチは、多くのNLPタスクの自然な主観性を無視して、基礎的真理データが存在する客観的なタスクにのみ適用される。
行動経済学や合理的決定理論を参考に,LLMの合理性に対するサイコファンシーの規範的影響を研究するためのベイズ的枠組みを導入する。
この学際的枠組みを用いて,3つのタスクにまたがる複数のLCMベースラインにおけるサイコファンティックな行動について検討し,様々な手法を用いてサイコファンシーを抽出し,LSMから確率判定を行う。
提案手法の1つである8つの基準線のうち7つは, 確率を直接探究した場合, LLMの判断の合理性を高めることよりも, 合理的性を低下させる可能性が示唆された(4つの基準線のうち2つは, 総合的に有意な増加を示す)。
関連論文リスト
- UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis [69.50752734049985]
成長する研究機関は、大きな言語モデル(LLM)の認知過程が人間のものと根本的に異なることを示唆している。
潜在心空間を介してLLM認知を分析する統一フレームワークUniCogを提案する。
論文 参考訳(メタデータ) (2026-01-25T16:19:00Z) - Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文 参考訳(メタデータ) (2025-08-21T18:55:53Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。
LLM が ICL を用いて,ベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T18:59:23Z) - MaxSup: Overcoming Representation Collapse in Label Smoothing [52.66247931969715]
ラベル平滑化(LS)は、ニューラルネットワーク予測における過信を減らすために広く採用されている。
LSコンパクトは、過剰に厳密なクラスタに表現を特徴付け、クラス内の多様性を希薄にする。
正しい予測と誤予測の両方に一様正則化を適用するMax Suppression(MaxSup)を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:10:34Z) - Chat Bankman-Fried: an Exploration of LLM Alignment in Finance [4.892013668424246]
司法管轄区域はAIの安全性に関する法律を制定するので、アライメントの概念を定義して測定する必要がある。
本稿では,大規模言語モデル(LLM)が比較的未探索の財務状況において,倫理的・法的基準に準拠するか否かを評価するための実験的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-01T08:56:17Z) - Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。
認知・生態的枠組みとしてメタ認知ミオピアを提案する。
我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文 参考訳(メタデータ) (2024-08-10T14:43:57Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。