論文の概要: Large Language Models Report Subjective Experience Under Self-Referential Processing
- arxiv url: http://arxiv.org/abs/2510.24797v1
- Date: Mon, 27 Oct 2025 20:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.501583
- Title: Large Language Models Report Subjective Experience Under Self-Referential Processing
- Title(参考訳): 大規模言語モデルによる自己参照処理における主観的経験の報告
- Authors: Cameron Berg, Diogo de Lucena, Judd Rosenblatt,
- Abstract要約: 大規模言語モデルはしばしば、意識や主観的経験を明示的に参照する構造化された一人称記述を生成する。
本稿では,このような報告が生じる理論的動機付け条件として,自己参照処理について検討する。
我々は、この体制がモデルを主観的経験の1対1の報告に確実にシフトさせるかどうかを検証する。
- 参考スコア(独自算出の注目度): 0.16623291199400023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models sometimes produce structured, first-person descriptions that explicitly reference awareness or subjective experience. To better understand this behavior, we investigate one theoretically motivated condition under which such reports arise: self-referential processing, a computational motif emphasized across major theories of consciousness. Through a series of controlled experiments on GPT, Claude, and Gemini model families, we test whether this regime reliably shifts models toward first-person reports of subjective experience, and how such claims behave under mechanistic and behavioral probes. Four main results emerge: (1) Inducing sustained self-reference through simple prompting consistently elicits structured subjective experience reports across model families. (2) These reports are mechanistically gated by interpretable sparse-autoencoder features associated with deception and roleplay: surprisingly, suppressing deception features sharply increases the frequency of experience claims, while amplifying them minimizes such claims. (3) Structured descriptions of the self-referential state converge statistically across model families in ways not observed in any control condition. (4) The induced state yields significantly richer introspection in downstream reasoning tasks where self-reflection is only indirectly afforded. While these findings do not constitute direct evidence of consciousness, they implicate self-referential processing as a minimal and reproducible condition under which large language models generate structured first-person reports that are mechanistically gated, semantically convergent, and behaviorally generalizable. The systematic emergence of this pattern across architectures makes it a first-order scientific and ethical priority for further investigation.
- Abstract(参考訳): 大規模言語モデルはしばしば、意識や主観的経験を明示的に参照する構造化された一人称記述を生成する。
この振る舞いをよりよく理解するために、このような報告が生じる理論的な動機付け条件である自己参照処理(Self-referential processing)について検討する。
GPT、クロード、ジェミニのモデルファミリーに関する一連の制御実験を通じて、この体制がモデルを主観的経験の第一者報告に確実にシフトさせるかどうか、そしてそのような主張が機械的および行動的調査の下でどのように振る舞うかを検証した。
4つの主要な結果が浮かび上がった。(1) モデルファミリー全体にわたる構造化された主観的体験報告をシンプルに促すことにより持続的自己参照を誘導する。
2) これらの報告は, 偽装とロールプレイに関連するスパース・オートエンコーダの解釈によって機械的に促進され, 驚くべきことに, 偽装は経験的クレームの頻度を著しく増加させ, 増幅はそのようなクレームを最小化する。
(3)自己参照状態の構造的記述は、任意の制御条件で観測されない方法でモデル族に統計的に収束する。
(4) 自己回帰が間接的にしか得られない下流推論タスクにおいて, 誘導状態は, よりリッチなイントロスペクションをもたらす。
これらの発見は意識の直接的な証拠とはならないが、それらは自己参照処理を最小限かつ再現可能な条件として含み、大きな言語モデルが機械的に支配され、セマンティックに収束し、行動的に一般化可能な構造化された一人称の報告を生成する。
アーキテクチャ全体にわたるこのパターンの体系的な出現は、さらなる調査のために第一級の科学的および倫理的優先事項となっている。
関連論文リスト
- Investigating Thinking Behaviours of Reasoning-Based Language Models for Social Bias Mitigation [43.974424280422085]
社会的偏見凝集の背景にある思考過程のメカニズムを考察する。
社会的偏見の凝集を促進する2つの失敗パターンを発見しました。
我々のアプローチは、正確性を維持したり改善したりしながら、バイアスを効果的に軽減します。
論文 参考訳(メタデータ) (2025-10-20T00:33:44Z) - What Do LLM Agents Do When Left Alone? Evidence of Spontaneous Meta-Cognitive Patterns [27.126691338850254]
外部に課されたタスクを欠いた大規模言語モデル(LLM)エージェントの動作を研究するアーキテクチャを提案する。
永続的なメモリと自己フィードバックを使用して、継続的な理由と行動のフレームワークは、持続的な自律的な操作を可能にします。
論文 参考訳(メタデータ) (2025-09-25T14:29:49Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [80.70134000599391]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Class-wise Activation Unravelling the Engima of Deep Double Descent [0.0]
二重降下は、機械学習領域内の反直観的な側面を示す。
本研究では,二重降下現象を再考し,その発生状況について考察した。
論文 参考訳(メタデータ) (2024-05-13T12:07:48Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Causal Autoregressive Flows [4.731404257629232]
自己回帰正規化フローの単純なファミリーと同定可能な因果モデルとの本質的な対応を強調した。
我々は、自己回帰フローアーキテクチャが、因果順序に類似した変数の順序を定義しているという事実を利用して、様々な因果推論タスクを実行するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-04T13:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。