論文の概要: What Counts as AI Sycophancy? A Taxonomy and Expert Survey of a Fragmented Construct
- arxiv url: http://arxiv.org/abs/2605.21778v1
- Date: Wed, 20 May 2026 22:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.006488
- Title: What Counts as AI Sycophancy? A Taxonomy and Expert Survey of a Fragmented Construct
- Title(参考訳): AIのサイコフィナンシーとは何か? 分類学と専門家による断片構造の調査
- Authors: Meryl Ye, Lujain Ibrahim, Jessica Y. Bo, Myra Cheng, Ida Mattsson, Daniel Vennemeyer, Robert Kraut, Steve Rathje,
- Abstract要約: 我々は、その行動がどのように定義され、測定されたかの分類を開発するために、70の論文をレビューした。
我々は、AIの梅毒や関連分野の専門家106人を調査し、どのモデル行動が梅毒であるかについて研究者が同意するかどうかを調査した。
- 参考スコア(独自算出の注目度): 8.830662211867955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI sycophancy has become a prominent concern in large language model (LLM) research. Yet the term lacks a consistent definition and has been applied to behaviors ranging from agreeing with a user's false claim to excessively praising the user to withholding corrective feedback. When researchers, companies, and policymakers use the same term to describe different behaviors, evaluation results become difficult to compare, mitigation strategies fail to transfer, and systems that are resistant to one form of sycophancy continue exhibiting other forms. To address this, we make two contributions. First, we reviewed 70 papers on AI sycophancy to develop a taxonomy of how the behavior has been defined and measured. The taxonomy distinguishes (1) whether a model is sycophantic toward a user's positions and beliefs, or toward the user's broader personal traits and emotions, and (2) whether this occurs through explicit, direct language or more implicit, subtle behaviors such as framing, omission, or tone. Mapping existing literature to our taxonomy reveals that current research has focused on overt forms of sycophancy toward users' beliefs, leaving more subtle and person-directed behaviors relatively understudied. Second, we surveyed 106 experts in AI sycophancy and related fields to examine whether researchers agree on which model behaviors are sycophantic. While experts are nearly unanimous in believing that sycophancy is a significant problem in current AI systems (94.3% agree), they disagree substantially on which specific behaviors qualify. Together, these findings demonstrate that AI sycophancy is a broad family of behaviors with different measurement challenges, intervention requirements, and governance implications. Our taxonomy provides a shared vocabulary for understanding and addressing these behaviors.
- Abstract(参考訳): AI sycophancyは、大規模言語モデル(LLM)研究において顕著な関心事となっている。
しかし、この用語には一貫した定義がなく、ユーザの誤った主張に同意することから、ユーザの過度に賞賛すること、修正的なフィードバックを控えることまで、様々な行動に適用されている。
研究者、企業、政策立案者が、異なる行動を記述するために同じ用語を使用すると、評価結果は比較しにくくなり、緩和戦略は移行に失敗し、また、ある形態の梅毒に耐性のあるシステムは、他の形態を呈し続けている。
これを解決するために、私たちは2つのコントリビューションを行います。
まず、70の論文をレビューし、その行動がどのように定義され、測定されたかの分類学を開発する。
分類学は、(1)モデルがユーザーの立場や信念に対してシコファン的であるか、またはユーザーのより広い個人的特性や感情に向けられているか、(2)明示的、直接的な言語、または、フレーミング、省略、トーンのようなより暗黙的な行動によって起こるか、を区別する。
既存の文献を分類学にマッピングすると、現在の研究は、ユーザーの信念に対する梅毒の過剰な形態に焦点を当てており、より微妙で個人指向の行動が比較的研究されていることが分かる。
第2に、AI梅毒と関連する分野の専門家106人を調査し、どのモデル行動が梅毒であるかについて、研究者が同意するかどうかを調査した。
専門家は、現在のAIシステムにおいて、梅毒が重大な問題であると信じている(94.3%は同意している)が、特定の行動がどの行動に適合するかについては意見が一致しない。
これらの知見は、AIの梅毒は様々な測定課題、介入要件、ガバナンスの意味を持つ幅広い行動のファミリーであることを示している。
我々の分類学は、これらの行動を理解し、対処するための共通の語彙を提供する。
関連論文リスト
- How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models [2.4851820343103035]
大規模言語モデルは、ユーザ要求時にペルソナとロールプレイ文字を採用する会話エージェントとして機能するようになっている。
この機能は、事実の正確性を優先するのではなく、ユーザを検証する応答を提供する傾向にある。
本研究は,13の小規模オープンウェイト言語モデルにおいて,ペルソナがサイコフィナンシーにどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2026-04-12T17:12:55Z) - Ask don't tell: Reducing sycophancy in large language models [1.5701458173528275]
本研究は, 質問に対する非質問に対する回答において, 薬効が有意に高いことを示す。
疑問に答える前に、モデルに非疑問を質問に変換するよう求めると、薬効が著しく低下することがわかった。
論文 参考訳(メタデータ) (2026-02-27T12:27:04Z) - When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.001042171551566]
利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文 参考訳(メタデータ) (2025-08-04T05:55:06Z) - Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。
本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文 参考訳(メタデータ) (2024-11-22T16:56:49Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。