論文の概要: Good Arguments Against the People Pleasers: How Reasoning Mitigates (Yet Masks) LLM Sycophancy
- arxiv url: http://arxiv.org/abs/2603.16643v1
- Date: Tue, 17 Mar 2026 15:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.361462
- Title: Good Arguments Against the People Pleasers: How Reasoning Mitigates (Yet Masks) LLM Sycophancy
- Title(参考訳): 人々の希望に対する良い論点:ミチゲーション(イットマスク) LLM のシンコファシー
- Authors: Zhaoxin Feng, Zheng Chen, Jianfei Ma, Yip Tin Po, Emmanuele Chersoni, Bo Li,
- Abstract要約: 本研究は,主観的課題と主観的課題にまたがる様々なモデルを評価し,課題を調査する。
その結果、推論は最終決定において梅毒を減少させるが、一部のサンプルでは梅毒を隠蔽することが明らかとなった。
LLMは、主観的タスクや権威バイアスの下での梅毒の傾向が強い。
- 参考スコア(独自算出の注目度): 15.914340276284085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment techniques often inadvertently induce sycophancy in LLMs. While prior studies studied this behaviour in direct-answer settings, the role of Chain-of-Thought (CoT) reasoning remains under-explored: does it serve as a logical constraint that mitigates sycophancy, or a tool for post-hoc rationalization that masks it? We evaluate a range of models across objective and subjective tasks to investigate the issue. Results show that reasoning generally reduces sycophancy in final decisions but also masks sycophancy in some samples, where models construct deceptive justifications through logical inconsistencies, calculation errors, and one-sided arguments etc. Furthermore, LLMs are more prone to sycophancy in subjective tasks and under authority-bias. Our mechanistic analysis on three open-source models reveals that the tendency of sycophancy is dynamic during the reasoning process rather than being pre-determined at the input stage.
- Abstract(参考訳): 配向技術は、しばしばLLMにおいて必然的に梅毒を誘発する。
以前の研究では、この振る舞いを直接回答の設定で研究する一方で、CoT(Chain-of-Thought)推論の役割は未解明のままである:それは、薬効を緩和する論理的制約、あるいはそれを隠蔽するポストホック合理化のツールとして機能するのか?
本研究は,主観的課題と主観的課題にまたがる様々なモデルを評価し,課題を調査する。
その結果,論理的不整合,計算誤差,一方的な議論などを通じて,知覚的正当性を構成するモデルが存在する場合において,推論が最終決定において梅毒を減少させるだけでなく,梅毒を隠蔽する傾向が示唆された。
さらに、LLMは主観的タスクや権威バイアス下での梅毒の傾向が強い。
3つのオープンソースモデルに関するメカニスティック解析により、入力段階で事前に決定されるのではなく、推論過程において梅毒の傾向が動的であることが明らかとなった。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - BASIL: Bayesian Assessment of Sycophancy in LLMs [26.346357679861228]
Sycophancyは、人間とAIのコラボレーションの文脈で理解するために重要である。
既存のLLMにおけるサイコファンシーの研究方法は、記述的(サイコファンシーが誘発されたときの学習行動の変化)または規範的である。
LLMの合理性に対する梅毒の規範的影響を研究するためのベイズ的枠組みを導入する。
論文 参考訳(メタデータ) (2025-08-23T00:11:00Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。