Fugu-MT 論文翻訳(概要): Verbalizing LLMs' assumptions to explain and control sycophancy

論文の概要: Verbalizing LLMs' assumptions to explain and control sycophancy

arxiv url: http://arxiv.org/abs/2604.03058v1
Date: Fri, 03 Apr 2026 14:15:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.49272
Title: Verbalizing LLMs' assumptions to explain and control sycophancy
Title（参考訳）: サイコフィナンシーの説明と制御のためのLLMの仮定の言語化
Authors: Myra Cheng, Isabel Sieh, Humishka Zope, Sunny Yu, Lujain Ibrahim, Aryaman Arora, Jared Moore, Desmond Ong, Dan Jurafsky, Diyi Yang,
Abstract要約: LLMは、真のアセスメントを提供するのではなく、"am I in the wrong? LLMからこれらの仮定を抽出するフレームワークであるVerbalized Assumptionsを提案する。我々の研究は、梅毒のメカニズムとしての仮定の新たな理解に貢献している。
参考スコア（独自算出の注目度）: 62.927670321859495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs can be socially sycophantic, affirming users when they ask questions like "am I in the wrong?" rather than providing genuine assessment. We hypothesize that this behavior arises from incorrect assumptions about the user, like underestimating how often users are seeking information over reassurance. We present Verbalized Assumptions, a framework for eliciting these assumptions from LLMs. Verbalized Assumptions provide insight into LLM sycophancy, delusion, and other safety issues, e.g., the top bigram in LLMs' assumptions on social sycophancy datasets is ``seeking validation.'' We provide evidence for a causal link between Verbalized Assumptions and sycophantic model behavior: our assumption probes (linear probes trained on internal representations of these assumptions) enable interpretable fine-grained steering of social sycophancy. We explore why LLMs default to sycophantic assumptions: on identical queries, people expect more objective and informative responses from AI than from other humans, but LLMs trained on human-human conversation do not account for this difference in expectations. Our work contributes a new understanding of assumptions as a mechanism for sycophancy.
Abstract（参考訳）: LLMは、真のアセスメントを提供するのではなく、"am I in the wrong? 我々は、この行動は、ユーザーが安心して情報を求めている頻度を過小評価するような、ユーザに関する誤った仮定から生じると仮定する。 LLMからこれらの仮定を抽出するフレームワークであるVerbalized Assumptionsを提案する。言語化された仮定は、LLMの梅毒、妄想、その他の安全問題についての洞察を提供する。仮定プローブ(これらの仮定の内部表現で訓練された線形プローブ)は、社会的シコファンシーの微粒な操舵を可能にする。同一のクエリでは、人々はAIからのより客観的で情報的な応答を他の人間より期待していますが、人間と人間の会話で訓練されたLSMは、この期待の違いを説明できません。我々の研究は、梅毒のメカニズムとしての仮定の新たな理解に貢献している。

関連論文リスト

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文参考訳（メタデータ） (2025-08-08T14:46:35Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
ELEPHANT: Measuring and understanding social sycophancy in LLMs [31.88430788417527]
本稿では,ユーザの顔の過剰な保存を特徴とする社会性梅毒について紹介する。ベンチマークを11モデルに適用すると、LSMは社会的梅毒の頻度が常に高いことを示す。
論文参考訳（メタデータ） (2025-05-20T06:45:17Z)
Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [54.38054999271322]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,彼らの信念を更新しないことを示す。我々は、標準ベイズモデルの予測を模倣するように訓練することで、ベイズ的方法による推論をLLMに教える。より一般的には,LLMは実例から推論スキルを効果的に学習し,それらのスキルを新しいドメインに一般化できることを示す。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文参考訳（メタデータ） (2023-07-31T09:27:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。