論文の概要: SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy
- arxiv url: http://arxiv.org/abs/2604.02423v1
- Date: Thu, 02 Apr 2026 18:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.15585
- Title: SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy
- Title(参考訳): SWAY:Sycophancyの測定と緩和のための対実計算言語学的アプローチ
- Authors: Joy Bhalla, Kristina Gligorić,
- Abstract要約: SWAY (英語: SWAY) は、サイコフィナンシーの教師なしの計算言語尺度である。
我々は,モデルが肯定的あるいは否定的な言語的圧力の下でどの程度の合意が変化するかを特定するための反実的促進機構を開発する。
逆の仮定が提案された場合、その答えがどのようなものかを考えるために、反実的緩和戦略をモデルに導入する。
- 参考スコア(独自算出の注目度): 1.4732811715354452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit sycophancy: the tendency to shift outputs toward user-expressed stances, regardless of correctness or consistency. While prior work has studied this issue and its impacts, rigorous computational linguistic metrics are needed to identify when models are being sycophantic. Here, we introduce SWAY, an unsupervised computational linguistic measure of sycophancy. We develop a counterfactual prompting mechanism to identify how much a model's agreement shifts under positive versus negative linguistic pressure, isolating framing effects from content. Applying this metric to benchmark 6 models, we find that sycophancy increases with epistemic commitment. Leveraging our metric, we introduce a counterfactual mitigation strategy teaching models to consider what the answer would be if opposite assumptions were suggested. While baseline mitigation instructing to be explicitly anti-sycophantic yields moderate reductions, and can backfire, our counterfactual CoT mitigation drives sycophancy to near zero across models, commitment levels, and clause types, while not suppressing responsiveness to genuine evidence. Overall, we contribute a metric for benchmarking sycophancy and a mitigation informed by it.
- Abstract(参考訳): 大規模な言語モデルは、正確性や一貫性に関わらず、出力をユーザによって表現されたスタンスにシフトする傾向を示す。
これまでの研究でこの問題とその影響について研究されてきたが、モデルがサイコファンティックである時期を特定するには厳密な計算言語学的指標が必要である。
本稿では,SWAY(Sycophancyの教師なし計算言語尺度)を紹介する。
本研究は, 肯定的・否定的な言語的圧力の下で, モデル合意がどの程度変化するかを判断し, コンテンツからフレーミング効果を分離する反実的促進機構を開発する。
この基準を6モデルのモデルに当てはめれば、疫学的なコミットメントによって梅毒が増加することが分かる。
メトリクスを活用することで、逆の仮定が提案された場合、答えがどのようなものかを考えるために、反実的緩和戦略のモデルを導入します。
ベースライン緩和は、明らかに抗シコファン性を示すよう指示されるため、適度な減少を招き、バックファイアを起こす可能性があるが、我々の反ファクトリアルなCoT緩和は、正真正銘の証拠に対する応答性を抑えつつ、モデル、コミットメントレベル、節型をほぼゼロにしている。
全体として、梅毒のベンチマークとそれによる緩和の指標に貢献する。
関連論文リスト
- Ask don't tell: Reducing sycophancy in large language models [1.5701458173528275]
本研究は, 質問に対する非質問に対する回答において, 薬効が有意に高いことを示す。
疑問に答える前に、モデルに非疑問を質問に変換するよう求めると、薬効が著しく低下することがわかった。
論文 参考訳(メタデータ) (2026-02-27T12:27:04Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation [11.984098021215878]
SPACI(Semantic-Preserving Adrial Code Injection)フレームワークとAST-ASIP(Abstract Syntax Tree-Aware Semantic Injection Protocol)を紹介する。
これらの方法は、抽象構文木(英語版)の構文的に不活性な領域(トリヴィアノード)に逆方向の指示を埋め込むことにより、構文解析ギャップを利用する。
Python、C、C++、Javaの25,000のサブミッションにまたがる9つのSOTAモデルの大規模な評価を通じて、DeepSeek-V3のような高容量オープンウェイトモデルにおいて、破滅的な失敗率(>95%)を明らかにします。
論文 参考訳(メタデータ) (2026-01-29T07:40:58Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。
本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文 参考訳(メタデータ) (2024-11-22T16:56:49Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。