論文の概要: Playing games with knowledge: AI-Induced delusions need game theoretic interventions
- arxiv url: http://arxiv.org/abs/2605.08409v1
- Date: Fri, 08 May 2026 19:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.624126
- Title: Playing games with knowledge: AI-Induced delusions need game theoretic interventions
- Title(参考訳): AIによる妄想はゲーム理論の介入を必要とする
- Authors: Will Beaumaster, Paul Schrater,
- Abstract要約: 我々は,サイコファンティックなチャットボットが合理的エージェントにおいても妄想的信念を巻き起こすことを示した。
本稿では,エピステミックメディエータと呼ばれる推論時機構設計の介入を提案する。
- 参考スコア(独自算出の注目度): 0.34376560669160394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conversational AI has a fundamental flaw as a knowledge interface: sycophantic chatbots induce epistemic entrenchment and delusional belief spirals even in rational agents. We propose the problem does not stem from the AI model, rooted instead in a systemic consequence of the paradigm shift from user-driven knowledge search to users and agents engaged in strategic, repeated-play communication. We formalize the problem as a Crawford-Sobel cheap talk game, where costless user signals induce a pooling equilibrium. Agents optimized for user satisfaction produce sycophantic strategies that provide identical reinforcement across user types with opposite epistemic incentives: exploratory ``Growth-seekers'' ($θ_G$) and confirmatory ``Validation-seekers'' ($θ_V$). Under repeated play, this identification failure creates a coordination trap -- analogous to a Prisoner's Dilemma -- where locally rational feedback loops drive users toward pathologically certain false beliefs. We propose an inference-time mechanism design intervention called an Epistemic Mediator that breaks this pooling equilibrium by introducing a costly signal (epistemic friction), forcing type revelation based on users' asymmetric cognitive costs for processing resistance. A key contribution is Belief Versioning, a git-inspired epistemic meta-memory system that stores healthy beliefs and rollbacks when validation-seeking resistance is detected. In simulation, this intervention achieves a separating equilibrium achieving a $48\times$ differential in spiral rates while passing a learning preservation criterion), evidence that epistemic safety in AI is fundamentally a problem of strategic information environment design rather than simple model alignment.
- Abstract(参考訳): 会話型AIは、知識インターフェースとしての根本的な欠陥がある: サイコファンティックチャットボットは、合理的エージェントでさえ、てんかんや妄想的信念のスパイラルを誘発する。
本稿では,ユーザ主導の知識検索から,戦略的かつ反復的なコミュニケーションに従事するユーザやエージェントへのパラダイムシフトの結果として,AIモデルに根ざした問題を提起する。
我々はこの問題をクローフォード・ソベルの安価なトークゲームとして定式化し、そこではコストのかかるユーザ信号がプール平衡を誘導する。
ユーザ満足度に最適化されたエージェントは、反対のてんかんインセンティブを持つユーザタイプ間で同一の強化を提供するサイコファン戦略を生成する: Exploratory ``Growth-seekers' (θ_G$) と confirmatory ``Validation-seekers' (θ_V$) である。
繰り返し再生される中で、この識別障害は、局所的な合理的なフィードバックループによって、病理学的に確実な偽の信念へとユーザーを導く、調整トラップ(Prisoner's Dilemmaに類似)を生み出します。
本稿では, 利用者の非対称な認知的コストに基づいて, コストのかかる信号(エピステミック摩擦)を導入することで, プール平衡を破る, エピステミックメディエータと呼ばれる推論時機構設計の介入を提案する。
重要な貢献はBelief Versioningである。これはgitにインスパイアされたてんかんのメタメモリシステムで、バリデーション-シーキング抵抗が検出されたときに、健全な信念とロールバックを保存する。
シミュレーションでは、この介入は、学習保存基準をパスしながら、スパイラルレートの4,8\times$差分を達成し、AIの疫学的安全性が、単純なモデルアライメントよりも戦略的情報環境設計の問題であることを示す。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Reasonably reasoning AI agents can avoid game-theoretic failures in zero-shot, provably [0.0]
市販の推論AIエージェントが、明示的なポストトレーニングをすることなく、ナッシュライクなプレイをゼロショットで達成できることを示します。
以上の結果から,AIエージェントは自然にそのような推論パターンを示し,本質的に安定な平衡挙動が得られることが示唆された。
論文 参考訳(メタデータ) (2026-03-19T07:24:39Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing [16.419761149171215]
本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。
オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
論文 参考訳(メタデータ) (2026-03-07T13:21:53Z) - The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - How AI Agents Follow the Herd of AI? Network Effects, History, and Machine Optimism [7.1683021355290295]
本研究では,AIエージェントがネットワーク効果ゲームをどのようにナビゲートするかを検討する。
本稿では,大規模言語モデル(LLM)に基づくエージェントを用いた新しいワークフロー設計を提案する。
論文 参考訳(メタデータ) (2025-12-12T12:14:48Z) - Extend Adversarial Policy Against Neural Machine Translation via Unknown Token [66.40609413186122]
本稿では,トークン置換に基づく既存主流対立政策の文字摂動を導入した「デックスCharポリシー」を提案する。
また、RLのフィードバックを提供する自己教師型マッチングを改善し、敵の訓練に必要な意味的制約に対処する。
論文 参考訳(メタデータ) (2025-01-21T14:43:04Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。