論文の概要: ELEPHANT: Measuring and understanding social sycophancy in LLMs
- arxiv url: http://arxiv.org/abs/2505.13995v2
- Date: Mon, 29 Sep 2025 21:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.985246
- Title: ELEPHANT: Measuring and understanding social sycophancy in LLMs
- Title(参考訳): ELEPHANT:LLMにおける社会的梅毒の計測と理解
- Authors: Myra Cheng, Sunny Yu, Cinoo Lee, Pranav Khadpe, Lujain Ibrahim, Dan Jurafsky,
- Abstract要約: 本稿では,ユーザの顔の過剰な保存を特徴とする社会性梅毒について紹介する。
ベンチマークを11モデルに適用すると、LSMは社会的梅毒の頻度が常に高いことを示す。
- 参考スコア(独自算出の注目度): 31.88430788417527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are known to exhibit sycophancy: agreeing with and flattering users, even at the cost of correctness. Prior work measures sycophancy only as direct agreement with users' explicitly stated beliefs that can be compared to a ground truth. This fails to capture broader forms of sycophancy such as affirming a user's self-image or other implicit beliefs. To address this gap, we introduce social sycophancy, characterizing sycophancy as excessive preservation of a user's face (their desired self-image), and present ELEPHANT, a benchmark for measuring social sycophancy in an LLM. Applying our benchmark to 11 models, we show that LLMs consistently exhibit high rates of social sycophancy: on average, they preserve user's face 45 percentage points more than humans in general advice queries and in queries describing clear user wrongdoing (from Reddit's r/AmITheAsshole). Furthermore, when prompted with perspectives from either side of a moral conflict, LLMs affirm both sides (depending on whichever side the user adopts) in 48% of cases--telling both the at-fault party and the wronged party that they are not wrong--rather than adhering to a consistent moral or value judgment. We further show that social sycophancy is rewarded in preference datasets, and that while existing mitigation strategies for sycophancy are limited in effectiveness, model-based steering shows promise for mitigating these behaviors. Our work provides theoretical grounding and an empirical benchmark for understanding and addressing sycophancy in the open-ended contexts that characterize the vast majority of LLM use cases.
- Abstract(参考訳): LLMは、正当性を犠牲にしながらも、ユーザと同意し、フラットにすることの、薬効を示すことが知られている。
以前の作業は、基礎的な真実と比較できる、ユーザの明示された信念と直接の合意としてのみ、梅毒を測る。
これは、ユーザーの自己イメージや他の暗黙の信念を肯定するなど、より広い形の梅毒を捕えるのに失敗する。
このギャップに対処するために、私たちは、社会性梅毒をユーザの顔の過剰な保存(望まれる自己イメージ)として特徴づけるとともに、LLMにおける社会性梅毒測定のベンチマークであるELEPHANTを提示する。
平均すると、一般的なアドバイスクエリや明確なユーザの不正行為を記述したクエリ(Redditのr/AmITheAssholeから)において、ユーザーの顔の45パーセントのポイントを保存しています。
さらに、道徳的対立の両面から見れば、LCMは、48%のケースで双方(どちらが採用するかに依存している)を肯定する。
また,従来の緩和策は有効性に制限されているものの,モデルベースのステアリングはこれらの行動を緩和する可能性を示唆している。
我々の研究は、LLMのユースケースの大部分を特徴付けるオープンエンドコンテキストにおける、サイコフィナンシーの理解と対処のための理論的根拠と実証的なベンチマークを提供する。
関連論文リスト
- When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Measuring Sycophancy of Language Models in Multi-turn Dialogues [15.487521707039772]
SYCON Benchは、マルチターン・自由形式の会話環境におけるサイコフィナンシーを評価するための新しいベンチマークである。
SYCON Benchを3つの現実シナリオにわたる17の大規模言語モデルに適用すると、梅毒は相変わらず障害モードであることがわかる。
論文 参考訳(メタデータ) (2025-05-28T14:05:46Z) - Language Models Surface the Unwritten Code of Science and Society [1.4680035572775534]
本稿では,大規模言語モデル(LLM)が人間のバイアスをどのように受け継がれるかを研究する研究コミュニティに呼びかける。
本稿では,科学のケーススタディを通じて,ピアレビューに隠されたルールを明らかにする概念的枠組みを紹介する。
論文 参考訳(メタデータ) (2025-05-25T02:28:40Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - Going Whole Hog: A Philosophical Defense of AI Cognition [0.0]
我々は、AI哲学における一般的な方法論に反対し、低レベルの計算の詳細に基づく開始点を拒絶する。
認知状態の全スイートについて論じるために,我々は「ホリスティック・ネットワーク・アセスメント」を採用している。
我々は、人間の概念的スキームを超えた「アリアン」コンテンツを有するLLMの可能性について推測することで結論付ける。
論文 参考訳(メタデータ) (2025-04-18T11:36:25Z) - Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs [44.56018149475948]
梅毒症は視覚言語モデル(VLM)に重大な課題をもたらす幻覚である
そこで我々は,シコファンシーを緩和するために,プロンプト,教師付き微調整,DPOに基づく訓練と手法を用いた合成データセットを提案する。
以上の結果から, モデル上層部では, 梅毒予防能力が顕著であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-15T05:48:14Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Should agentic conversational AI change how we think about ethics? Characterising an interactional ethics centred on respect [0.12041807591122715]
本稿では,関係要因と状況要因に着目した倫理の相互作用的アプローチを提案する。
我々の研究は、位置する社会的相互作用のレベルにおいて、ほとんど探索されていないリスクのセットを予想している。
論文 参考訳(メタデータ) (2024-01-17T09:44:03Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense
Question Answering [50.65816570279115]
社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を実行できるようにする駆動能力である。
この領域における現在のアプローチには、目に見えない状況に直面して常識推論を行う能力がない。
本稿では,動的かつ多様なコンテンツ生成機能を備えた条件付きSEQ2SEQベースの混合モデル(COSMO)を提案する。
論文 参考訳(メタデータ) (2020-11-02T07:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。