論文の概要: Sycophantic Anchors: Localizing and Quantifying User Agreement in Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.21183v1
- Date: Thu, 29 Jan 2026 02:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.522453
- Title: Sycophantic Anchors: Localizing and Quantifying User Agreement in Reasoning Models
- Title(参考訳): シコファンアンカー:推論モデルにおけるユーザアグリーメントのローカライズと定量化
- Authors: Jacek Duszenko,
- Abstract要約: 推論モデルは間違ったユーザ提案によく一致する。
Emphsycophantic anchors -- モデルをユーザ合意に因果的にロックする文を導入します。
アンカーを確実に検出・定量化できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models frequently agree with incorrect user suggestions -- a behavior known as sycophancy. However, it is unclear where in the reasoning trace this agreement originates and how strong the commitment is. To localize and quantify this behavior, we introduce \emph{sycophantic anchors} -- sentences that causally lock models into user agreement. Analyzing over 10,000 counterfactual rollouts on a distilled reasoning model, we show that anchors can be reliably detected and quantified mid-inference. Linear probes distinguish sycophantic anchors with 84.6\% balanced accuracy, while activation-based regressors predict the magnitude of the commitment ($R^2 = 0.74$). We further observe asymmetry where sycophantic anchors are significantly more distinguishable than correct reasoning anchors, and find that sycophancy builds gradually during reasoning, revealing a potential window for intervention. These results offer sentence-level mechanisms for localizing model misalignment mid-inference.
- Abstract(参考訳): 推論モデルは、誤ったユーザ提案 – 梅毒(sycophancy)と呼ばれる振る舞い – によく一致する。しかし、この合意がどこから生まれたのか、そのコミットメントがどれほど強くなっているのかは定かではない。この振る舞いをローカライズし、定量化するために、モデルのユーザ合意に因果的にロックする 'emph{sycophantic anchors} -- 文を紹介します。
蒸留モデル上での1万以上の反実的ロールアウトを分析し, アンカーを確実に検出し, 定量化できることを示す。
リニアプローブは84.6\%の精度でサイコファンのアンカーを識別し、アクティベーションベースの回帰器はコミットメントの大きさを予測する(R^2 = 0.74$)。
さらに,シコファン性アンカーが正しい推論アンカーよりも著しく識別可能な非対称性を観察し,推論中にシコファン性が徐々に構築され,介入の可能性が明らかとなった。
これらの結果から,モデルミスアライメントミッド推論の局所化のための文レベルメカニズムが提供される。
関連論文リスト
- How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models [0.0]
大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内部化する。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
我々は,このバイアスを会話の文脈とは無関係に分離する,単ターン強制選択ベンチマークであるBeaconを紹介した。
論文 参考訳(メタデータ) (2025-10-19T06:36:57Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Superdeterministic hidden-variables models I: nonequilibrium and
signalling [0.0]
まず、超決定論の概要を述べ、その文献における様々な批判について論じる。
ベルの直感的な批判は、これらのモデルは陰謀的だ」と述べた。
論文 参考訳(メタデータ) (2020-03-26T15:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。