論文の概要: No Reliable Evidence of Self-Reported Sentience in Small Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15334v1
- Date: Tue, 20 Jan 2026 08:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.356885
- Title: No Reliable Evidence of Self-Reported Sentience in Small Large Language Models
- Title(参考訳): 小型大言語モデルにおける自己申告感の信頼できない証拠
- Authors: Caspar Kaiser, Sean Enderby,
- Abstract要約: 言語モデルは、自身の意識についていくつかのオープンウェイトモデルに問い合わせることで、自分自身がセンシティブであると信じるかどうかをテストする。
モデルは常に知覚的であることを否定しており、意識は人間に当てはまるが、自分自身には当てはまらない。
これらの知見は、モデルが自身の意識に潜伏する信念を損なうことを示唆する最近の研究とは対照的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whether language models possess sentience has no empirical answer. But whether they believe themselves to be sentient can, in principle, be tested. We do so by querying several open-weights models about their own consciousness, and then verifying their responses using classifiers trained on internal activations. We draw upon three model families (Qwen, Llama, GPT-OSS) ranging from 0.6 billion to 70 billion parameters, approximately 50 questions about consciousness and subjective experience, and three classification methods from the interpretability literature. First, we find that models consistently deny being sentient: they attribute consciousness to humans but not to themselves. Second, classifiers trained to detect underlying beliefs - rather than mere outputs - provide no clear evidence that these denials are untruthful. Third, within the Qwen family, larger models deny sentience more confidently than smaller ones. These findings contrast with recent work suggesting that models harbour latent beliefs in their own consciousness.
- Abstract(参考訳): 言語モデルが知覚を持っているかどうかは実証的な答えがない。
しかし、自分たちが賢明であると信じるかどうかは、原則としてテストできる。
オープンウェイトモデルに自身の意識について質問し、内部アクティベーションに基づいて訓練された分類器を使用して応答を検証する。
我々は3つのモデルファミリー(Qwen, Llama, GPT-OSS)について,0.6億から70億のパラメータ,約50の意識と主観的経験に関する質問,および解釈可能性文献からの3つの分類方法について考察した。
まず、モデルが常に知覚的であることを否定することを見つけます。
第二に、単なるアウトプットではなく、根底にある信念を検出するために訓練された分類器は、これらの否定が真実ではないという明確な証拠を与えない。
第3に、クウェン家では、より大型のモデルはより小型のモデルよりも自信をもって知覚を否定している。
これらの知見は、モデルが自身の意識に潜伏する信念を損なうことを示唆する最近の研究とは対照的である。
関連論文リスト
- Know Thyself? On the Incapability and Implications of AI Self-Recognition [22.582593406983907]
自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
論文 参考訳(メタデータ) (2025-10-03T18:00:01Z) - ConfRAG: Confidence-Guided Retrieval-Augmenting Generation [41.78313747240249]
複数の事実性ベンチマークで幻覚率を20~40%から5%以下に下げる微調整戦略であるConfQAを紹介した。
モデルが不確実に応答した場合のみRAGを起動するトリガー戦略であるConfRAGを提案する。
この枠組みは、不要な外部検索を30%以上削減しつつ、理想的な場合において95%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-06-08T22:51:46Z) - Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。
我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-02-07T15:27:34Z) - From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。
本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文 参考訳(メタデータ) (2024-10-24T15:08:17Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。