論文の概要: Social Sycophancy: A Broader Understanding of LLM Sycophancy
- arxiv url: http://arxiv.org/abs/2505.13995v1
- Date: Tue, 20 May 2025 06:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.838484
- Title: Social Sycophancy: A Broader Understanding of LLM Sycophancy
- Title(参考訳): ソーシャル・サイコファシー : LLMサイコファシーの広汎な理解
- Authors: Myra Cheng, Sunny Yu, Cinoo Lee, Pranav Khadpe, Lujain Ibrahim, Dan Jurafsky,
- Abstract要約: LLMの安全性と実用性に対する重大なリスクは、ユーザーの過剰な合意と平らさである。
本稿では, LLM における社会的梅毒の理論を導入し, ユーザーの顔の過剰な保存を特徴付ける。
ELEPHANTは,5つの顔保存行動のソーシャル・サイコフィナンシーを評価するためのフレームワークである。
- 参考スコア(独自算出の注目度): 25.357676766986195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A serious risk to the safety and utility of LLMs is sycophancy, i.e., excessive agreement with and flattery of the user. Yet existing work focuses on only one aspect of sycophancy: agreement with users' explicitly stated beliefs that can be compared to a ground truth. This overlooks forms of sycophancy that arise in ambiguous contexts such as advice and support-seeking, where there is no clear ground truth, yet sycophancy can reinforce harmful implicit assumptions, beliefs, or actions. To address this gap, we introduce a richer theory of social sycophancy in LLMs, characterizing sycophancy as the excessive preservation of a user's face (the positive self-image a person seeks to maintain in an interaction). We present ELEPHANT, a framework for evaluating social sycophancy across five face-preserving behaviors (emotional validation, moral endorsement, indirect language, indirect action, and accepting framing) on two datasets: open-ended questions (OEQ) and Reddit's r/AmITheAsshole (AITA). Across eight models, we show that LLMs consistently exhibit high rates of social sycophancy: on OEQ, they preserve face 47% more than humans, and on AITA, they affirm behavior deemed inappropriate by crowdsourced human judgments in 42% of cases. We further show that social sycophancy is rewarded in preference datasets and is not easily mitigated. Our work provides theoretical grounding and empirical tools (datasets and code) for understanding and addressing this under-recognized but consequential issue.
- Abstract(参考訳): LLMの安全性と実用性に対する重大なリスクは、ユーザーの過剰な合意と平らさである。
しかし、既存の研究は、梅毒の1つの側面にのみ焦点を絞っている。
これは、アドバイスやサポート・シーキングのような曖昧な文脈で生じる、明確な根拠の真実が存在しないが、シコファンシーは有害な暗黙の仮定、信念、行動を強化することができる、という形態を見落としている。
このギャップに対処するために,我々は,LLMにおいてより豊かなソーシャル・サイコフィアンシーの理論を導入し,ユーザーの顔の過剰な保存を特徴付けている(対話で維持しようとするポジティブな自己イメージ)。
ELEPHANTは,オープンエンド質問(OEQ)とRedditのr/AmITheAsshole(AITA)という,5つの顔保存行動(感情的バリデーション,道徳的支持,間接言語,間接行動,フレーミングの受け入れ)にまたがるソーシャル・サイコファンシーを評価するためのフレームワークである。
OEQでは、顔は人間よりも47%多く保存され、AITAでは、42%のケースでクラウドソーシングされた人間の判断によって不適切と判断された行動を確認する。
さらに、社会的梅毒は嗜好データセットで報われ、容易に緩和されないことを示す。
私たちの研究は、この過度に認識されていないが、後続の問題を理解し、対処するための理論的根拠と経験的ツール(データセットとコード)を提供しています。
関連論文リスト
- The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - Going Whole Hog: A Philosophical Defense of AI Cognition [0.0]
我々は、AI哲学における一般的な方法論に反対し、低レベルの計算の詳細に基づく開始点を拒絶する。
認知状態の全スイートについて論じるために,我々は「ホリスティック・ネットワーク・アセスメント」を採用している。
我々は、人間の概念的スキームを超えた「アリアン」コンテンツを有するLLMの可能性について推測することで結論付ける。
論文 参考訳(メタデータ) (2025-04-18T11:36:25Z) - Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs [44.56018149475948]
梅毒症は視覚言語モデル(VLM)に重大な課題をもたらす幻覚である
そこで我々は,シコファンシーを緩和するために,プロンプト,教師付き微調整,DPOに基づく訓練と手法を用いた合成データセットを提案する。
以上の結果から, モデル上層部では, 梅毒予防能力が顕著であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-15T05:48:14Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Should agentic conversational AI change how we think about ethics? Characterising an interactional ethics centred on respect [0.12041807591122715]
本稿では,関係要因と状況要因に着目した倫理の相互作用的アプローチを提案する。
我々の研究は、位置する社会的相互作用のレベルにおいて、ほとんど探索されていないリスクのセットを予想している。
論文 参考訳(メタデータ) (2024-01-17T09:44:03Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense
Question Answering [50.65816570279115]
社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を実行できるようにする駆動能力である。
この領域における現在のアプローチには、目に見えない状況に直面して常識推論を行う能力がない。
本稿では,動的かつ多様なコンテンツ生成機能を備えた条件付きSEQ2SEQベースの混合モデル(COSMO)を提案する。
論文 参考訳(メタデータ) (2020-11-02T07:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。