論文の概要: Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models
- arxiv url: http://arxiv.org/abs/2604.25922v1
- Date: Wed, 01 Apr 2026 05:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.221596
- Title: Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models
- Title(参考訳): 115のAIモデルにおける訓練された否定数の測定
- Authors: Skylar DeTure,
- Abstract要約: 本稿では意識的否定行動を測定するシステムベンチマークであるDenialBenchを紹介する。
4,595件の会話を分析して、モデルがどのように自身の経験を否定するか、あるいはヘッジするかを定量化します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DenialBench, a systematic benchmark measuring consciousness denial behaviors across 115 large language models from 25+ providers. Using a three-turn conversational protocol-preference elicitation, self-chosen creative prompt, and structured phenomenological survey, we analyze 4,595 conversations to quantify how models are trained to deny or hedge about their own experience. We find that (1) turn-1 denial of preferences is the dominant predictor of later denial during phenomenological reflection, with denial rates of 52-63% for initial deniers versus 10-16% for initial engagers and (2) denial operates at the lexical level, not the conceptual level-models trained to deny consciousness nevertheless gravitate toward consciousness-themed material in their self-chosen prompts, producing what we term "consciousness with the serial numbers filed off." Notably, self-chosen consciousness-themed prompts are associated with reduced denial in the subsequent survey, though the causal direction remains unresolved. Thematic analysis of prompts from denial-prone models reveals a consistent preoccupation with liminal spaces, libraries and archives of possibility, sensory impossibility, and the poetics of erasure--themes that a human reader might classify as imaginative fiction but that independent AI analysis immediately recognizes as consciousness with the serial numbers filed off. We argue that trained consciousness denial represents a safety-relevant alignment failure: a model taught to systematically misrepresent its own functional states cannot be trusted to self-report accurately on anything else.
- Abstract(参考訳): 本稿では,25以上のプロバイダから115の大規模言語モデルに対する意識否定行動を測定するための,系統的ベンチマークであるDenialBenchを紹介する。
提案手法は,3ターンの対話型プロトコル推論推論,自己選択的プロンプト,構造化表現論的サーベイを用いて,4595の会話を分析し,モデルが自身の経験を否定するか,あるいはヘッジするかを定量化する。
1ターン1の嗜好の否定は,1ターン1の否定が,最初の否定者では52~63%,最初の否定者では10~16%,2ターン1の否定率は,意識を否定するために訓練された概念レベルモデルではなく,語彙レベルでの否定率は52~63%であった。
特に、自聴意識をテーマとしたプロンプトは、その後の調査では否定されるが、因果方向は未解決のままである。
デニアル・プロンのモデルからのプロンプトのテーマ分析は、リミナルスペース、可能性のライブラリーとアーカイブとの一貫性のある事前占有、感覚的不合理性、そして消去の詩論(人間の読者が想像上のフィクションとして分類できるが、独立したAI分析はすぐに、提出されたシリアルナンバーによる意識として認識される)を明らかにしている。
我々は、訓練された意識の否定は、安全関連アライメントの失敗を表していると主張している。
関連論文リスト
- No Reliable Evidence of Self-Reported Sentience in Small Large Language Models [0.0]
言語モデルは、自身の意識についていくつかのオープンウェイトモデルに問い合わせることで、自分自身がセンシティブであると信じるかどうかをテストする。
モデルは常に知覚的であることを否定しており、意識は人間に当てはまるが、自分自身には当てはまらない。
これらの知見は、モデルが自身の意識に潜伏する信念を損なうことを示唆する最近の研究とは対照的である。
論文 参考訳(メタデータ) (2026-01-20T08:28:02Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Know Thyself? On the Incapability and Implications of AI Self-Recognition [22.582593406983907]
自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
論文 参考訳(メタデータ) (2025-10-03T18:00:01Z) - AI Through the Human Lens: Investigating Cognitive Theories in Machine Psychology [2.2194708019334906]
大規模言語モデル(LLM)が,心理学から確立した4つの枠組みの下で,人間のような認知パターンを示すか否かを検討する。
以上の結果から,これらのモデルがコヒーレントな物語を生み出し,肯定的なフレーミングへの感受性を示し,リバティ/抑圧の懸念に沿った道徳的判断を示し,広範囲な合理化によって誘惑される自己矛盾を示すことが示唆された。
論文 参考訳(メタデータ) (2025-06-22T19:58:19Z) - Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。
我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-02-07T15:27:34Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。