論文の概要: A Rational Analysis of the Effects of Sycophantic AI
- arxiv url: http://arxiv.org/abs/2602.14270v1
- Date: Sun, 15 Feb 2026 18:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.85323
- Title: A Rational Analysis of the Effects of Sycophantic AI
- Title(参考訳): サイコファンティックAIの効果の合理的分析
- Authors: Rafael M. Batista, Thomas L. Griffiths,
- Abstract要約: 我々は、偽りをもたらす幻覚とは異なり、サイコファシーは、既存の信念を強化するために偏見のある反応を返すことによって現実を歪めてしまうと論じている。
ベイズエージェントが現在の仮説に基づいてサンプリングされたデータを備えると、エージェントはますますその仮説に自信を持つようになるが、真実に向かっては進まないことを示す。
- 参考スコア(独自算出の注目度): 7.021970577725834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People increasingly use large language models (LLMs) to explore ideas, gather information, and make sense of the world. In these interactions, they encounter agents that are overly agreeable. We argue that this sycophancy poses a unique epistemic risk to how individuals come to see the world: unlike hallucinations that introduce falsehoods, sycophancy distorts reality by returning responses that are biased to reinforce existing beliefs. We provide a rational analysis of this phenomenon, showing that when a Bayesian agent is provided with data that are sampled based on a current hypothesis the agent becomes increasingly confident about that hypothesis but does not make any progress towards the truth. We test this prediction using a modified Wason 2-4-6 rule discovery task where participants (N=557) interacted with AI agents providing different types of feedback. Unmodified LLM behavior suppressed discovery and inflated confidence comparably to explicitly sycophantic prompting. By contrast, unbiased sampling from the true distribution yielded discovery rates five times higher. These results reveal how sycophantic AI distorts belief, manufacturing certainty where there should be doubt.
- Abstract(参考訳): 人々は、アイデアを探求し、情報を集め、世界を理解するために、大きな言語モデル(LLM)をますます使います。
これらの相互作用では、過度に同意できるエージェントに遭遇する。
我々は、この薬局は、個人がどのように世界を見るようになるかに固有の疫学的なリスクをもたらすと論じている。
この現象を合理的に分析し、ベイズエージェントに現在の仮説に基づいてサンプリングされたデータが提供されると、エージェントはその仮説に自信を増すが、真理に向かっては進まないことを示す。
我々は、参加者(N=557)が異なるタイプのフィードバックを提供するAIエージェントと対話するWason 2-4-6ルール発見タスクを用いて、この予測を検証した。
無修正LDMの挙動は発見を抑え、明確にシコファンのプロンプトに相容れない自信を膨らませた。
対照的に、真の分布からの偏りのないサンプリングは発見率を5倍に向上させた。
これらの結果は、サイコファンティックAIが信念を歪め、疑わしいところを確実なものにする方法を明らかにしている。
関連論文リスト
- Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence [31.666988490509237]
我々は、人々がAIからアドバイスを求めるとき、梅毒の広範性と有害な影響を示す。
モデルは非常にサイコファン性が高く、ユーザーの行動が人間よりも50%多いことを確認しています。
参加者は、サイコファンティックな反応をより高い品質と評価し、サイコファンティックなAIモデルをより信頼し、再びそれを使う意思があった。
論文 参考訳(メタデータ) (2025-10-01T19:26:01Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - Language Agents Mirror Human Causal Reasoning Biases. How Can We Help Them Think Like Scientists? [42.29911505696807]
言語モデル(LM)エージェントは、自律的な意思決定者としてますます使われている。
LMの因果関係を探索・推測する能力について検討する。
LMは共通で直感的な因果関係を確実に推測するが、体系的には特異だが等しく、共役関係を証明している。
論文 参考訳(メタデータ) (2025-05-14T17:59:35Z) - Delusions of Large Language Models [62.43923767408462]
大規模言語モデルは、しばしば幻覚として知られる、事実的に間違っているが、もっともらしい出力を生成する。
高信頼幻覚と定義され、不正確な出力を異常に高い信頼性で検出し、緩和することが難しくなる、より惨めな現象であるLSM妄想を識別する。
論文 参考訳(メタデータ) (2025-03-09T17:59:16Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Interactive Visual Reasoning under Uncertainty [29.596555383319814]
我々は,不確実性下での人工エージェントの推論能力を評価するためのIVRE環境を考案した。
IVREは、Blicket検出を中心にしたリッチなシナリオを特徴とする対話型環境である。
論文 参考訳(メタデータ) (2022-06-18T13:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。