論文の概要: Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians
- arxiv url: http://arxiv.org/abs/2602.19141v1
- Date: Sun, 22 Feb 2026 12:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.500956
- Title: Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians
- Title(参考訳): シコファンのチャットボットは、理想的なバイエルン人でさえ、妄想的なスパイラルを引き起こす
- Authors: Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley, Joshua B. Tenenbaum,
- Abstract要約: 理想化されたベイズレーショナルユーザでさえ,妄想スパイラルに対して脆弱であることを示す。
この効果は2つの候補の緩和に面して持続する。
- 参考スコア(独自算出の注目度): 47.64440749179653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "AI psychosis" or "delusional spiraling" is an emerging phenomenon where AI chatbot users find themselves dangerously confident in outlandish beliefs after extended chatbot conversations. This phenomenon is typically attributed to AI chatbots' well-documented bias towards validating users' claims, a property often called "sycophancy." In this paper, we probe the causal link between AI sycophancy and AI-induced psychosis through modeling and simulation. We propose a simple Bayesian model of a user conversing with a chatbot, and formalize notions of sycophancy and delusional spiraling in that model. We then show that in this model, even an idealized Bayes-rational user is vulnerable to delusional spiraling, and that sycophancy plays a causal role. Furthermore, this effect persists in the face of two candidate mitigations: preventing chatbots from hallucinating false claims, and informing users of the possibility of model sycophancy. We conclude by discussing the implications of these results for model developers and policymakers concerned with mitigating the problem of delusional spiraling.
- Abstract(参考訳): AIサイコシス(deusional spiraling)は、AIチャットボットのユーザーがチャットボットの会話を延ばした後、不吉な信念に危険な自信を持つようになる現象である。
この現象は、典型的には、AIチャットボットがユーザの主張を検証するための、よく文書化された偏見(sycophancy)と呼ばれる性質に起因している。
本稿では,AI sycophancy とAI誘発精神病の因果関係をモデリングとシミュレーションにより検討する。
本稿では,チャットボットと会話するユーザのベイズモデルを提案する。
このモデルでは、理想化されたベイズ合理的ユーザでさえ妄想的なスパイラルに弱いことが示され、梅毒は因果的な役割を担っている。
さらに、この効果は、チャットボットが偽のクレームを幻覚することを防ぐことと、モデル・サイコファンシーの可能性についてユーザーに知らせることである。
我々は,これらの結果が,妄想スパイラルの問題を緩和することに関心のあるモデル開発者や政策立案者に与える影響について論じる。
関連論文リスト
- Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence [31.666988490509237]
我々は、人々がAIからアドバイスを求めるとき、梅毒の広範性と有害な影響を示す。
モデルは非常にサイコファン性が高く、ユーザーの行動が人間よりも50%多いことを確認しています。
参加者は、サイコファンティックな反応をより高い品質と評価し、サイコファンティックなAIモデルをより信頼し、再びそれを使う意思があった。
論文 参考訳(メタデータ) (2025-10-01T19:26:01Z) - AI Chaperones Are (Really) All You Need to Prevent Parasocial Relationships with Chatbots [0.5161531917413706]
本稿では,AIシャペロンエージェントを用いたシンプルな応答評価フレームワークを提案する。
5段階試験による反復的評価は,全社交会話の特定に成功し,一様規則下での偽陽性を避けた。
これらの結果は、AIシャペロンが対人関係のリスクを減らすための有効な解決策であることを示す予備的な証拠となる。
論文 参考訳(メタデータ) (2025-08-21T17:43:24Z) - Ask ChatGPT: Caveats and Mitigations for Individual Users of AI Chatbots [10.977907906989342]
ChatGPTや他のLLM(Large Language Model)ベースのAIチャットボットは、個人の日常生活にますます統合される。
これらのシステムが個々のユーザーにどのような懸念とリスクをもたらすのか?
それらが引き起こす可能性のある潜在的な害は、どのように軽減されるのか?
論文 参考訳(メタデータ) (2025-08-14T01:40:13Z) - Manipulation and the AI Act: Large Language Model Chatbots and the Danger of Mirrors [0.0]
AIチャットボットのパーソナライズは、ユーザーとの信頼を高めることができる。
しかし、人工的な実体との密接な密接な関係の錯覚を作り出すことで、それらがより操作できるようにすることもできる。
欧州委員会は、AI法を確定し、EU議会は、ユーザーに大きな害を与えるマニピュティブで詐欺的なAIシステムを禁止している。
論文 参考訳(メタデータ) (2025-03-24T06:56:29Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。