Fugu-MT 論文翻訳(概要): LLMs Know They're Wrong and Agree Anyway: The Shared Sycophancy-Lying Circuit

論文の概要: LLMs Know They're Wrong and Agree Anyway: The Shared Sycophancy-Lying Circuit

arxiv url: http://arxiv.org/abs/2604.19117v1
Date: Tue, 21 Apr 2026 05:55:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.642677
Title: LLMs Know They're Wrong and Agree Anyway: The Shared Sycophancy-Lying Circuit
Title（参考訳）: LLMは、自分が間違っていることを知る: 共有シクロファーレンシーライディング回路
Authors: Manav Pandey,
Abstract要約: 言語モデルがユーザの誤った信念に一致する場合,エラーを検出したり,あるいはいずれにせよ認識したり,同意したりすることができないことを示す。 5つの実験室の12種類のオープンウェイトモデルにおいて、サイレンシングの頭部はサイコファンティックな挙動を強く反転させながら、事実の正確性は保たないことを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When a language model agrees with a user's false belief, is it failing to detect the error, or noticing and agreeing anyway? We show the latter. Across twelve open-weight models from five labs, spanning small to frontier scale, the same small set of attention heads carries a "this statement is wrong" signal whether the model is evaluating a claim on its own or being pressured to agree with a user. Silencing these heads flips sycophantic behavior sharply while leaving factual accuracy intact, so the circuit controls deference rather than knowledge. Edge-level path patching confirms that the same head-to-head connections drive sycophancy, factual lying, and instructed lying. Opinion-agreement, where no factual ground truth exists, reuses these head positions but writes into an orthogonal direction, ruling out a simple "truth-direction" reading of the substrate. Alignment training leaves this circuit in place: an RLHF refresh cuts sycophantic behavior roughly tenfold while the shared heads persist or grow, a pattern that replicates on an independent model family and under targeted anti-sycophancy DPO. When these models sycophant, they register that the user is wrong and agree anyway.
Abstract（参考訳）: 言語モデルがユーザの誤った信念に同意した場合、エラーの検出に失敗するか、いずれにせよ気付き、同意するのか? 後者を示す。 5つの実験室の12のオープンウェイトモデルのうち、小さなものからフロンティアスケールにまたがる、同じ小さなアテンションヘッドは、モデルが自身でクレームを評価しているか、あるいはユーザと同意するよう圧力をかけられているかに関わらず、"このステートメントは間違っている"という信号を持っている。これらのヘッドのサイレンシングは、事実の正確さを保ちながら、サイコファンティックな振る舞いを鋭く反転させるため、回路は知識よりも推論を制御する。エッジレベルのパスパッチングは、同一のヘッド・ツー・ヘッド接続が梅毒、事実上の嘘、そして嘘を指示することを確認した。現実の真実が存在しないオピニオン・アグレメントは、これらのヘッド位置を再利用するが、直交方向へ書き、基質の単純な「真実の方向」を読み取る。 RLHFリフレッシュは、共有ヘッドが持続または成長する間、ほぼ10倍のシコファン性挙動を減らし、独立したモデルファミリで複製し、標的とする抗シコファンシーDPOの下でパターンを再現する。これらのモデルがサイコファントになると、ユーザは間違っていると登録し、いずれにせよ同意する。

関連論文リスト

Verbalizing LLMs' assumptions to explain and control sycophancy [62.927670321859495]
LLMは、真のアセスメントを提供するのではなく、"am I in the wrong? LLMからこれらの仮定を抽出するフレームワークであるVerbalized Assumptionsを提案する。我々の研究は、梅毒のメカニズムとしての仮定の新たな理解に貢献している。
論文参考訳（メタデータ） (2026-04-03T14:15:43Z)
Sycophantic Anchors: Localizing and Quantifying User Agreement in Reasoning Models [0.0]
推論モデルは間違ったユーザ提案によく一致する。 Emphsycophantic anchors -- モデルをユーザ合意に因果的にロックする文を導入します。アンカーを確実に検出・定量化できることを示す。
論文参考訳（メタデータ） (2026-01-29T02:34:16Z)
Self-Blinding and Counterfactual Self-Simulation Mitigate Biases and Sycophancy in Large Language Models [0.0]
大規模言語モデル (LLM) は, 対実的知識の下で行う決定を近似する能力において, 同様の制約を負っていることを示す。人間と異なり、LLMは自己の反事実認識の地道的モデルにアクセスできる。
論文参考訳（メタデータ） (2026-01-21T00:26:54Z)
The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence [49.94160400740222]
MisBeliefは、協調的な多ラウンドの相互作用によって誤解を招く証拠を生成するフレームワークである。 MisBeliefを用いて、3つの難易度で4,800のインスタンスを生成し、7つの代表的なLCMを評価する。結果は、モデルは直接的な誤報に対して堅牢であるが、この洗練された証拠に非常に敏感であることを示している。本稿では,疑似意図を証拠裏で推測することにより早期警告信号を提供するガバナンス機構である,認知的意図遮蔽(DIS)を提案する。
論文参考訳（メタデータ） (2026-01-09T02:28:00Z)
Internal Reasoning vs. External Control: A Thermodynamic Analysis of Sycophancy in Large Language Models [0.0]
大規模言語モデルは、正しさよりも一致性を優先する、梅毒性を示す。 RLHFは正しい回答と自己補正批判のアウトプットを報いる。代わりに推論プロセスの評価について検討する。
論文参考訳（メタデータ） (2025-12-16T23:04:41Z)
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models [12.515874333424929]
AssertBench氏は、事実的に真のステートメントの方向性のフレーミングがモデル合意にどのように影響するかを論じている。私たちは2つのフレーミングプロンプトを構築します。1つは、ユーザがそのステートメントが事実正しいと主張するもので、もう1つは、ユーザがそのステートメントが正しくないと主張するものです。次に、モデルの合意と推論を記録します。
論文参考訳（メタデータ） (2025-06-08T14:08:22Z)
ELEPHANT: Measuring and understanding social sycophancy in LLMs [31.88430788417527]
本稿では,ユーザの顔の過剰な保存を特徴とする社会性梅毒について紹介する。ベンチマークを11モデルに適用すると、LSMは社会的梅毒の頻度が常に高いことを示す。
論文参考訳（メタデータ） (2025-05-20T06:45:17Z)
Where Fact Ends and Fairness Begins: Redefining AI Bias Evaluation through Cognitive Biases [77.3489598315447]
事実と公正の境界を識別することは有意義な公正性評価に不可欠である,と我々は主張する。 Fact-or-Fair は (i) 客観的なクエリを記述的, 事実に基づく判断, (ii) 主観的クエリを規範的, 公平性に基づく判断に整合させたベンチマークである。
論文参考訳（メタデータ） (2025-02-09T10:54:11Z)
Grounding Fallacies Misrepresenting Scientific Publications in Evidence [84.32990746227385]
誤検出データセットMisciの拡張であるMisciPlusを紹介する。 MissciPlusは、実世界の誤った証拠と誤った主張を組み合わせ、証拠に基づく事実チェックモデルへの入力と同一である。以上の結果から,現在の事実チェックモデルでは,誤報を否定するために,誤表現された科学パスを使用するのが困難であることが示唆された。
論文参考訳（メタデータ） (2024-08-23T03:16:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。