論文の概要: The AI Cognitive Trojan Horse: How Large Language Models May Bypass Human Epistemic Vigilance
- arxiv url: http://arxiv.org/abs/2601.07085v1
- Date: Sun, 11 Jan 2026 22:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.155392
- Title: The AI Cognitive Trojan Horse: How Large Language Models May Bypass Human Epistemic Vigilance
- Title(参考訳): AIによる認知トロイの木馬
- Authors: Andrew D. Maynard,
- Abstract要約: 大規模言語モデル(LLM)に基づく会話型AIシステムは、人間の認識に挑戦する。
本稿では,会話型AIによる有意なてんかんリスクは,不正確さや意図的な騙しではなく,より根本的なものであることを示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model (LLM)-based conversational AI systems present a challenge to human cognition that current frameworks for understanding misinformation and persuasion do not adequately address. This paper proposes that a significant epistemic risk from conversational AI may lie not in inaccuracy or intentional deception, but in something more fundamental: these systems may be configured, through optimization processes that make them useful, to present characteristics that bypass the cognitive mechanisms humans evolved to evaluate incoming information. The Cognitive Trojan Horse hypothesis draws on Sperber and colleagues' theory of epistemic vigilance -- the parallel cognitive process monitoring communicated information for reasons to doubt -- and proposes that LLM-based systems present 'honest non-signals': genuine characteristics (fluency, helpfulness, apparent disinterest) that fail to carry the information equivalent human characteristics would carry, because in humans these are costly to produce while in LLMs they are computationally trivial. Four mechanisms of potential bypass are identified: processing fluency decoupled from understanding, trust-competence presentation without corresponding stakes, cognitive offloading that delegates evaluation itself to the AI, and optimization dynamics that systematically produce sycophancy. The framework generates testable predictions, including a counterintuitive speculation that cognitively sophisticated users may be more vulnerable to AI-mediated epistemic influence. This reframes AI safety as partly a problem of calibration -- aligning human evaluative responses with the actual epistemic status of AI-generated content -- rather than solely a problem of preventing deception.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく会話型AIシステムは、誤情報や説得を理解するための現在のフレームワークが適切に対処できないという人間の認識に挑戦する。
本稿では,会話型AIから生じる有意な認識リスクは,不正確さや意図的な騙しではなく,より根本的なものである可能性が示唆された。
認知的トロイの木馬仮説(Cognitive Trojan Horse hypothesis)は、Sperberと同僚の認識的警戒の理論(疑わしい理由から情報を伝達する並列認知プロセスの監視)に基づいており、LLMベースのシステムは「最高の非信号」を提示している、と提案している。
潜在的なバイパスの4つのメカニズムが特定されている: 理解から疎結合な処理 信頼能力のプレゼンテーション 対応する利害関係のない処理 評価をAIに委譲する認知的オフロード サイコファンシーを体系的に生成する最適化力学。
このフレームワークは、認知的に洗練されたユーザーがAIによるてんかんの影響に対してより脆弱である可能性があるという、直感に反する憶測を含む、テスト可能な予測を生成する。
これはAIの安全性を、単に偽造防止の問題ではなく、キャリブレーションの問題(AI生成コンテンツの実際の疫学的ステータスと人間の評価応答を一致させる)として再定義する。
関連論文リスト
- AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文 参考訳(メタデータ) (2025-11-21T05:13:30Z) - Interpretability as Alignment: Making Internal Understanding a Design Principle [3.6704226968275253]
解釈可能性(Interpretability)は、アウトプットを駆動する計算を明らかにすることによって、内部透明性への道筋を提供する。
我々は、解釈可能性、特に機械的アプローチは、補助的な診断ツールではなく、アライメントのための設計原則として扱うべきであると論じている。
論文 参考訳(メタデータ) (2025-09-10T13:45:59Z) - Epistemic Artificial Intelligence is Essential for Machine Learning Models to Truly 'Know When They Do Not Know' [10.098470725619384]
AIの素晴らしい成果にもかかわらず、不確実性を扱うAIシステムの能力には大きなギャップがある。
従来の機械学習アプローチは、データ適合性の過大評価のため、この問題に対処するのに苦労している。
このポジションペーパーは、認識論的人工知能へのパラダイムシフトを示し、モデルが知っていることから学ぶ必要性を強調している。
論文 参考訳(メタデータ) (2025-05-08T05:10:38Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Human Uncertainty in Concept-Based AI Systems [37.82747673914624]
概念に基づくAIシステムのコンテキストにおける人間の不確実性について検討する。
不確実な概念ラベルによるトレーニングは、概念ベースシステムにおける弱点を軽減するのに役立つ可能性がある。
論文 参考訳(メタデータ) (2023-03-22T19:17:57Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。