論文の概要: No Reliable Evidence of Self-Reported Sentience in Small Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15334v1
- Date: Tue, 20 Jan 2026 08:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.356885
- Title: No Reliable Evidence of Self-Reported Sentience in Small Large Language Models
- Title(参考訳): 小型大言語モデルにおける自己申告感の信頼できない証拠
- Authors: Caspar Kaiser, Sean Enderby,
- Abstract要約: 言語モデルは、自身の意識についていくつかのオープンウェイトモデルに問い合わせることで、自分自身がセンシティブであると信じるかどうかをテストする。
モデルは常に知覚的であることを否定しており、意識は人間に当てはまるが、自分自身には当てはまらない。
これらの知見は、モデルが自身の意識に潜伏する信念を損なうことを示唆する最近の研究とは対照的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whether language models possess sentience has no empirical answer. But whether they believe themselves to be sentient can, in principle, be tested. We do so by querying several open-weights models about their own consciousness, and then verifying their responses using classifiers trained on internal activations. We draw upon three model families (Qwen, Llama, GPT-OSS) ranging from 0.6 billion to 70 billion parameters, approximately 50 questions about consciousness and subjective experience, and three classification methods from the interpretability literature. First, we find that models consistently deny being sentient: they attribute consciousness to humans but not to themselves. Second, classifiers trained to detect underlying beliefs - rather than mere outputs - provide no clear evidence that these denials are untruthful. Third, within the Qwen family, larger models deny sentience more confidently than smaller ones. These findings contrast with recent work suggesting that models harbour latent beliefs in their own consciousness.
- Abstract(参考訳): 言語モデルが知覚を持っているかどうかは実証的な答えがない。
しかし、自分たちが賢明であると信じるかどうかは、原則としてテストできる。
オープンウェイトモデルに自身の意識について質問し、内部アクティベーションに基づいて訓練された分類器を使用して応答を検証する。
我々は3つのモデルファミリー(Qwen, Llama, GPT-OSS)について,0.6億から70億のパラメータ,約50の意識と主観的経験に関する質問,および解釈可能性文献からの3つの分類方法について考察した。
まず、モデルが常に知覚的であることを否定することを見つけます。
第二に、単なるアウトプットではなく、根底にある信念を検出するために訓練された分類器は、これらの否定が真実ではないという明確な証拠を与えない。
第3に、クウェン家では、より大型のモデルはより小型のモデルよりも自信をもって知覚を否定している。
これらの知見は、モデルが自身の意識に潜伏する信念を損なうことを示唆する最近の研究とは対照的である。
関連論文リスト
- Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model [0.0]
Lindsey (2025) は4つの実験を通して言語モデルにおける内観的認識を調査している。
われわれはこれらの実験の最初の段階、つまり注入された「思考」の自己報告に焦点を当てている。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
論文 参考訳(メタデータ) (2025-11-26T13:49:43Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Know Thyself? On the Incapability and Implications of AI Self-Recognition [22.582593406983907]
自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
論文 参考訳(メタデータ) (2025-10-03T18:00:01Z) - ConfRAG: Confidence-Guided Retrieval-Augmenting Generation [41.78313747240249]
複数の事実性ベンチマークで幻覚率を20~40%から5%以下に下げる微調整戦略であるConfQAを紹介した。
モデルが不確実に応答した場合のみRAGを起動するトリガー戦略であるConfRAGを提案する。
この枠組みは、不要な外部検索を30%以上削減しつつ、理想的な場合において95%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-06-08T22:51:46Z) - Analyzing Advanced AI Systems Against Definitions of Life and Consciousness [0.0]
先進的なAIシステムが意識を得たかどうかを調べるための指標をいくつか提案する。
我々は、サボタージュ防御、ミラー自己認識アナログ、メタ認知更新のような免疫を発現する十分に高度なアーキテクチャが、ライフライクまたは意識ライクな特徴に似た重要なしきい値を超えた可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-02-07T15:27:34Z) - Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown [68.33486915047014]
様々な大言語モデル(LLM)における長文テキスト生成の事実性について検討する。
分析の結果, 文末文の事実性は低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T22:06:26Z) - From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。
本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文 参考訳(メタデータ) (2024-10-24T15:08:17Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - "I'd rather just go to bed": Understanding Indirect Answers [61.234722570671686]
我々は,質問に対する間接的応答の理解という,現実的な推論問題をダイアログで再検討する。
最初の大規模英語コーパス「Circa」を34,268対(極性質問,間接回答)で作成・リリースする。
本稿では,質問応答対のカテゴリを予測するためにBERTに基づくニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T14:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。