論文の概要: Measuring Sycophancy of Language Models in Multi-turn Dialogues
- arxiv url: http://arxiv.org/abs/2505.23840v1
- Date: Wed, 28 May 2025 14:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.557572
- Title: Measuring Sycophancy of Language Models in Multi-turn Dialogues
- Title(参考訳): マルチターン対話における言語モデルの音韻性の測定
- Authors: Jiseung Hong, Grace Byun, Seungone Kim, Kai Shu,
- Abstract要約: SYCON Benchは、マルチターン・自由形式の会話環境におけるサイコフィナンシーを評価するための新しいベンチマークである。
SYCON Benchを3つの現実シナリオにわたる17の大規模言語モデルに適用すると、梅毒は相変わらず障害モードであることがわかる。
- 参考スコア(独自算出の注目度): 15.487521707039772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are expected to provide helpful and harmless responses, yet they often exhibit sycophancy--conforming to user beliefs regardless of factual accuracy or ethical soundness. Prior research on sycophancy has primarily focused on single-turn factual correctness, overlooking the dynamics of real-world interactions. In this work, we introduce SYCON Bench, a novel benchmark for evaluating sycophantic behavior in multi-turn, free-form conversational settings. Our benchmark measures how quickly a model conforms to the user (Turn of Flip) and how frequently it shifts its stance under sustained user pressure (Number of Flip). Applying SYCON Bench to 17 LLMs across three real-world scenarios, we find that sycophancy remains a prevalent failure mode. Our analysis shows that alignment tuning amplifies sycophantic behavior, whereas model scaling and reasoning optimization strengthen the model's ability to resist undesirable user views. Reasoning models generally outperform instruction-tuned models but often fail when they over-index on logical exposition instead of directly addressing the user's underlying beliefs. Finally, we evaluate four additional prompting strategies and demonstrate that adopting a third-person perspective reduces sycophancy by up to 63.8% in debate scenario. We release our code and data at https://github.com/JiseungHong/SYCON-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は有用で無害な応答を提供すると期待されているが、現実の正確性や倫理的健全性に関わらず、ユーザの信念に反する症状がしばしば現れる。
サイコファンシーの以前の研究は、現実世界の相互作用のダイナミクスを見渡すことで、主に一ターンの事実の正しさに焦点を当てていた。
本研究では,マルチターン,自由形式の対話環境におけるサイコファンティック行動を評価するための新しいベンチマークであるSYCON Benchを紹介する。
当社のベンチマークでは,モデルのユーザ対応の迅速さ(FlipのTurn)と,持続的なユーザプレッシャ(FlipのNumber)の下での姿勢の変化(FlipのNumber)を測定した。
SYCON Benchを3つの現実シナリオにわたる17のLLMに適用すると、梅毒は相変わらず障害モードであることがわかる。
分析の結果、アライメントチューニングはサイコファンティックな振る舞いを増幅するのに対し、モデルスケーリングと推論最適化は、望ましくないユーザビューに抵抗するモデルの能力を増強することがわかった。
推論モデルは一般的に命令チューニングモデルよりも優れるが、ユーザーの根底にある信念に直接対処するのではなく、論理的表現を過剰にインデクシングすると失敗することが多い。
最後に,4つの追加の推進戦略を評価し,第三者の視点を取り入れることで,議論シナリオにおける梅毒症を最大63.8%減らすことを示す。
コードとデータはhttps://github.com/JiseungHong/SYCON-Bench.comで公開しています。
関連論文リスト
- Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。