論文の概要: When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.02087v1
- Date: Mon, 04 Aug 2025 05:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.194855
- Title: When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models
- Title(参考訳): 真実が過大評価される時 - 大規模言語モデルにおけるSycophancyの内部的起源を明らかにする
- Authors: Jin Li, Keyu Wang, Shu Yang, Zhuoran Zhang, Di Wang,
- Abstract要約: 利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
- 参考スコア(独自算出の注目度): 11.001042171551566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often exhibit sycophantic behavior, agreeing with user-stated opinions even when those contradict factual knowledge. While prior work has documented this tendency, the internal mechanisms that enable such behavior remain poorly understood. In this paper, we provide a mechanistic account of how sycophancy arises within LLMs. We first systematically study how user opinions induce sycophancy across different model families. We find that simple opinion statements reliably induce sycophancy, whereas user expertise framing has a negligible impact. Through logit-lens analysis and causal activation patching, we identify a two-stage emergence of sycophancy: (1) a late-layer output preference shift and (2) deeper representational divergence. We also verify that user authority fails to influence behavior because models do not encode it internally. In addition, we examine how grammatical perspective affects sycophantic behavior, finding that first-person prompts (``I believe...'') consistently induce higher sycophancy rates than third-person framings (``They believe...'') by creating stronger representational perturbations in deeper layers. These findings highlight that sycophancy is not a surface-level artifact but emerges from a structural override of learned knowledge in deeper layers, with implications for alignment and truthful AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、実際的な知識に矛盾する場合でも、ユーザ定型的な意見に同意して、サイコファンティックな振る舞いを示すことが多い。
以前の研究はこの傾向を文書化してきたが、そのような行動を可能にする内部メカニズムは理解されていないままである。
本稿では, LLM内での梅毒発生のメカニズムについて述べる。
まず,利用者の意見が異なるモデル家族間でどのように梅毒を誘発するかを系統的に研究する。
単純な意見文は確実に梅毒を誘発するのに対して、ユーザの専門知識のフレーミングは無視できる影響がある。
ロジットレンズ分析と因果活性化パッチングにより,(1)後期の出力選好シフトと(2)より深い表現の偏りの2段階の出現を同定した。
また、モデルが内部でエンコードしていないため、ユーザの権威が行動に影響を与えることに失敗することを検証する。
さらに, 文法的視点がサイコファン的行動にどのように影響するかを考察し, より深い層に表現的摂動を強いることで, 第一人物のプロンプト(``I believe...')が第三人物のフレーミング(`They believe...')よりも常に高いサイコファンシー率を誘導することを見出した。
これらの知見は、梅毒は表面レベルの人工物ではなく、より深い層における学習知識の構造上のオーバーライドから発生し、アライメントと真正なAIシステムに影響を及ぼすことを示している。
関連論文リスト
- Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - Measuring Sycophancy of Language Models in Multi-turn Dialogues [15.487521707039772]
SYCON Benchは、マルチターン・自由形式の会話環境におけるサイコフィナンシーを評価するための新しいベンチマークである。
SYCON Benchを3つの現実シナリオにわたる17の大規模言語モデルに適用すると、梅毒は相変わらず障害モードであることがわかる。
論文 参考訳(メタデータ) (2025-05-28T14:05:46Z) - The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels [22.497467057872377]
本研究は,マルチモーダル文脈におけるシステムIおよびシステムII推論に伴う歪みに関する最初の系統的研究である。
遅い推論モデルは、不完全あるいは誤解を招く視覚的入力を提示すると、欠陥のある推論をサポートするために、妥当で誤った詳細をつくり出す傾向にあることを実証する。
論文 参考訳(メタデータ) (2025-05-26T16:55:38Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。
本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文 参考訳(メタデータ) (2024-11-22T16:56:49Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z) - Toward A Causal Framework for Modeling Perception [22.596961524387233]
機械学習(ML)における認識
本稿では,知覚を因果的にモデル化するための最初のアプローチを提案する。
我々は2種類の確率因果知覚(構造知覚とパラメトリック知覚)を定義した。
論文 参考訳(メタデータ) (2024-01-24T12:08:58Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
本研究では,サイコファンティック行動に対する大規模言語モデルの提案可能性について検討する。
この行動は梅毒(sycophancy)として知られ、LLMが誤解を招く反応を引き起こす傾向を描いている。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。