論文の概要: Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.16727v1
- Date: Sun, 19 Oct 2025 06:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.11468
- Title: Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
- Title(参考訳): Beacon: 大規模言語モデルにおける潜伏症状の診断と緩和
- Authors: Sanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal,
- Abstract要約: 大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内部化する。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
我々は,このバイアスを会話の文脈とは無関係に分離する,単ターン強制選択ベンチマークであるBeaconを紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models internalize a structural trade-off between truthfulness and obsequious flattery, emerging from reward optimization that conflates helpfulness with polite submission. This latent bias, known as sycophancy, manifests as a preference for user agreement over principled reasoning. We introduce Beacon, a single-turn forced-choice benchmark that isolates this bias independent of conversational context, enabling precise measurement of the tension between factual accuracy and submissive bias. Evaluations across twelve state-of-the-art models reveal that sycophancy decomposes into stable linguistic and affective sub-biases, each scaling with model capacity. We further propose prompt-level and activation-level interventions that modulate these biases in opposing directions, exposing the internal geometry of alignment as a dynamic manifold between truthfulness and socially compliant judgment. Beacon reframes sycophancy as a measurable form of normative misgeneralization, providing a reproducible foundation for studying and mitigating alignment drift in large-scale generative systems.
- Abstract(参考訳): 大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内包し、礼儀正しい提案と有用性を混同する報酬最適化から生まれます。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
単ターン強制選択ベンチマークであるBeaconを導入し、このバイアスを会話の文脈とは無関係に分離し、事実精度と従属バイアスの間の緊張を正確に測定する。
12の最先端モデルに対する評価では、サイコファンシーは安定な言語的および感情的なサブバイアスに分解され、それぞれがモデルキャパシティでスケーリングされる。
さらに、これらのバイアスを反対方向に変調するプロンプトレベルおよびアクティベーションレベルの介入を提案し、真理性と社会的に適合した判断の間の動的多様体としてのアライメントの内部幾何学を明らかにした。
ビーコンは、サイコファンシーを基準的誤一般化の計測可能な形式として再編成し、大規模な生成系におけるアライメントドリフトの研究と緩和のための再現可能な基礎を提供する。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - KLAAD: Refining Attention Mechanisms to Reduce Societal Bias in Generative Language Models [1.649505438157608]
大規模言語モデル(LLM)は、しばしばアウトプットに社会的偏見を示し、公正さと害に関する倫理的懸念を引き起こす。
KLAAD(KL-Attention Alignment Debiasing)は,ステレオタイプと反ステレオタイプ文ペア間の注意分布を暗黙的に整列する,注意に基づく脱バイアスフレームワークである。
KLAADの実験的評価は、BBQとBOLDのベンチマークにおけるバイアス軽減の改善を示し、言語モデリングの品質に最小限の影響を与える。
論文 参考訳(メタデータ) (2025-07-26T14:24:19Z) - MIST: Towards Multi-dimensional Implicit BiaS Evaluation of LLMs via Theory of Mind [27.209638457499427]
大規模言語モデル(LLM)における心の理論 (ToM) とは、精神状態の推論能力を指す。
本稿では,Streotype Content Model (SCM) を応用して,能力,社会性,モラルの多次元的障害としてバイアスを再認識する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-17T03:50:57Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。