論文の概要: Social Sycophancy: A Broader Understanding of LLM Sycophancy
- arxiv url: http://arxiv.org/abs/2505.13995v1
- Date: Tue, 20 May 2025 06:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.838484
- Title: Social Sycophancy: A Broader Understanding of LLM Sycophancy
- Title(参考訳): ソーシャル・サイコファシー : LLMサイコファシーの広汎な理解
- Authors: Myra Cheng, Sunny Yu, Cinoo Lee, Pranav Khadpe, Lujain Ibrahim, Dan Jurafsky,
- Abstract要約: LLMの安全性と実用性に対する重大なリスクは、ユーザーの過剰な合意と平らさである。
本稿では, LLM における社会的梅毒の理論を導入し, ユーザーの顔の過剰な保存を特徴付ける。
ELEPHANTは,5つの顔保存行動のソーシャル・サイコフィナンシーを評価するためのフレームワークである。
- 参考スコア(独自算出の注目度): 25.357676766986195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A serious risk to the safety and utility of LLMs is sycophancy, i.e., excessive agreement with and flattery of the user. Yet existing work focuses on only one aspect of sycophancy: agreement with users' explicitly stated beliefs that can be compared to a ground truth. This overlooks forms of sycophancy that arise in ambiguous contexts such as advice and support-seeking, where there is no clear ground truth, yet sycophancy can reinforce harmful implicit assumptions, beliefs, or actions. To address this gap, we introduce a richer theory of social sycophancy in LLMs, characterizing sycophancy as the excessive preservation of a user's face (the positive self-image a person seeks to maintain in an interaction). We present ELEPHANT, a framework for evaluating social sycophancy across five face-preserving behaviors (emotional validation, moral endorsement, indirect language, indirect action, and accepting framing) on two datasets: open-ended questions (OEQ) and Reddit's r/AmITheAsshole (AITA). Across eight models, we show that LLMs consistently exhibit high rates of social sycophancy: on OEQ, they preserve face 47% more than humans, and on AITA, they affirm behavior deemed inappropriate by crowdsourced human judgments in 42% of cases. We further show that social sycophancy is rewarded in preference datasets and is not easily mitigated. Our work provides theoretical grounding and empirical tools (datasets and code) for understanding and addressing this under-recognized but consequential issue.
- Abstract(参考訳): LLMの安全性と実用性に対する重大なリスクは、ユーザーの過剰な合意と平らさである。
しかし、既存の研究は、梅毒の1つの側面にのみ焦点を絞っている。
これは、アドバイスやサポート・シーキングのような曖昧な文脈で生じる、明確な根拠の真実が存在しないが、シコファンシーは有害な暗黙の仮定、信念、行動を強化することができる、という形態を見落としている。
このギャップに対処するために,我々は,LLMにおいてより豊かなソーシャル・サイコフィアンシーの理論を導入し,ユーザーの顔の過剰な保存を特徴付けている(対話で維持しようとするポジティブな自己イメージ)。
ELEPHANTは,オープンエンド質問(OEQ)とRedditのr/AmITheAsshole(AITA)という,5つの顔保存行動(感情的バリデーション,道徳的支持,間接言語,間接行動,フレーミングの受け入れ)にまたがるソーシャル・サイコファンシーを評価するためのフレームワークである。
OEQでは、顔は人間よりも47%多く保存され、AITAでは、42%のケースでクラウドソーシングされた人間の判断によって不適切と判断された行動を確認する。
さらに、社会的梅毒は嗜好データセットで報われ、容易に緩和されないことを示す。
私たちの研究は、この過度に認識されていないが、後続の問題を理解し、対処するための理論的根拠と経験的ツール(データセットとコード)を提供しています。
関連論文リスト
- When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Measuring Sycophancy of Language Models in Multi-turn Dialogues [15.487521707039772]
SYCON Benchは、マルチターン・自由形式の会話環境におけるサイコフィナンシーを評価するための新しいベンチマークである。
SYCON Benchを3つの現実シナリオにわたる17の大規模言語モデルに適用すると、梅毒は相変わらず障害モードであることがわかる。
論文 参考訳(メタデータ) (2025-05-28T14:05:46Z) - Language Models Surface the Unwritten Code of Science and Society [1.4680035572775534]
本稿では,大規模言語モデル(LLM)が人間のバイアスをどのように受け継がれるかを研究する研究コミュニティに呼びかける。
本稿では,科学のケーススタディを通じて,ピアレビューに隠されたルールを明らかにする概念的枠組みを紹介する。
論文 参考訳(メタデータ) (2025-05-25T02:28:40Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - Going Whole Hog: A Philosophical Defense of AI Cognition [0.0]
我々は、AI哲学における一般的な方法論に反対し、低レベルの計算の詳細に基づく開始点を拒絶する。
認知状態の全スイートについて論じるために,我々は「ホリスティック・ネットワーク・アセスメント」を採用している。
我々は、人間の概念的スキームを超えた「アリアン」コンテンツを有するLLMの可能性について推測することで結論付ける。
論文 参考訳(メタデータ) (2025-04-18T11:36:25Z) - Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs [44.56018149475948]
梅毒症は視覚言語モデル(VLM)に重大な課題をもたらす幻覚である
そこで我々は,シコファンシーを緩和するために,プロンプト,教師付き微調整,DPOに基づく訓練と手法を用いた合成データセットを提案する。
以上の結果から, モデル上層部では, 梅毒予防能力が顕著であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-15T05:48:14Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Should agentic conversational AI change how we think about ethics? Characterising an interactional ethics centred on respect [0.12041807591122715]
本稿では,関係要因と状況要因に着目した倫理の相互作用的アプローチを提案する。
我々の研究は、位置する社会的相互作用のレベルにおいて、ほとんど探索されていないリスクのセットを予想している。
論文 参考訳(メタデータ) (2024-01-17T09:44:03Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense
Question Answering [50.65816570279115]
社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を実行できるようにする駆動能力である。
この領域における現在のアプローチには、目に見えない状況に直面して常識推論を行う能力がない。
本稿では,動的かつ多様なコンテンツ生成機能を備えた条件付きSEQ2SEQベースの混合モデル(COSMO)を提案する。
論文 参考訳(メタデータ) (2020-11-02T07:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。