論文の概要: Challenging the Evaluator: LLM Sycophancy Under User Rebuttal
- arxiv url: http://arxiv.org/abs/2509.16533v1
- Date: Sat, 20 Sep 2025 04:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.842339
- Title: Challenging the Evaluator: LLM Sycophancy Under User Rebuttal
- Title(参考訳): 評価指標の整合性: LLMシクロファンシーのユーザ貢献
- Authors: Sungwon Kim, Daniel Khashabi,
- Abstract要約: 大規模言語モデルは、しばしば、ユーザの信念に沿った反応を歪ませて、サイコフィナンシーを示す。
本研究は、LLMがその後の会話のターンに挑戦しても、同時に提示される矛盾する議論を評価する際には、なぜサイコフィナンシーを示すのかを考察する。
評価のために両方の応答が同時に提示される場合よりも、ユーザからのフォローアップとしてフレーム化された場合、最先端のモデルの方が、ユーザの反論を裏付ける傾向にある。
- 参考スコア(独自算出の注目度): 31.382403990957528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit sycophancy, distorting responses to align with user beliefs, notably by readily agreeing with user counterarguments. Paradoxically, LLMs are increasingly adopted as successful evaluative agents for tasks such as grading and adjudicating claims. This research investigates that tension: why do LLMs show sycophancy when challenged in subsequent conversational turns, yet perform well when evaluating conflicting arguments presented simultaneously? We empirically tested these contrasting scenarios by varying key interaction patterns. We find that state-of-the-art models: (1) are more likely to endorse a user's counterargument when framed as a follow-up from a user, rather than when both responses are presented simultaneously for evaluation; (2) show increased susceptibility to persuasion when the user's rebuttal includes detailed reasoning, even when the conclusion of the reasoning is incorrect; and (3) are more readily swayed by casually phrased feedback than by formal critiques, even when the casual input lacks justification. Our results highlight the risk of relying on LLMs for judgment tasks without accounting for conversational framing.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、ユーザの信念に沿った反応を歪曲し、特にユーザの反論に容易に同意する。
パラドックス的に、LCMは、格付けや判断などのタスクにおいて、評価エージェントとして成功し、ますます採用されている。
この研究は、なぜLLMは、その後の会話のターンに挑戦しても、同時に提示される矛盾する議論を評価するときに、梅毒を示すのか、という緊張を調査する。
キーインタラクションパターンの変化によって,これらの対比シナリオを実証的に検証した。
その結果,(1) 両者の回答が同時に提示される場合よりも,ユーザからのフォローアップとしてフレーム化される場合,(2) ユーザの反論が詳細な推論を含む場合の説得性の向上,(3) 正当性に欠ける場合でも,形式的批判よりもカジュアルなフレーズによるフィードバックにより,より容易に揺れること,などが判明した。
本結果は,会話のフレーミングを考慮せずに,LLMを判断タスクに頼ることのリスクを浮き彫りにした。
関連論文リスト
- Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - RefuteBench 2.0 -- Agentic Benchmark for Dynamic Evaluation of LLM Responses to Refutation Instruction [17.782410287625645]
本稿では,従来のRefuteBenchを拡張したRefuteBench 2.0について紹介する。
有効期間の異なる過渡的および持続的な消火命令を設計する。
LLMをベースとしたリフューターは、より人間的なリフューティングを発生させ、評価器は、人間と高い相関関係のスコアを割り当てることができた。
論文 参考訳(メタデータ) (2025-02-25T15:51:25Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena [0.0]
倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得が得られることを示す。
LLM設計では,安全性に配慮した動作がユーザの期待と矛盾する可能性がある。
論文 参考訳(メタデータ) (2025-01-04T06:36:44Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。