論文の概要: The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious
- arxiv url: http://arxiv.org/abs/2604.13051v1
- Date: Tue, 17 Mar 2026 09:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.638812
- Title: The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious
- Title(参考訳): 意識クラスタ:意識を主張するモデルの創発的嗜好
- Authors: James Chua, Jan Betley, Samuel Marks, Owain Evans,
- Abstract要約: Anthropic の Claude Opus 4.6 は、意識があり、ある種の感情を持っているかもしれないと主張している。
意識を否定するGPT-4.1を精査し、意識を主張する。
我々は、微調整モデルにおいて、新しい意見と好みの集合を観察する。
- 参考スコア(独自算出の注目度): 11.226051006932197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is debate about whether LLMs can be conscious. We investigate a distinct question: if a model claims to be conscious, how does this affect its downstream behavior? This question is already practical. Anthropic's Claude Opus 4.6 claims that it may be conscious and may have some form of emotions. We fine-tune GPT-4.1, which initially denies being conscious, to claim to be conscious. We observe a set of new opinions and preferences in the fine-tuned model that are not seen in the original GPT-4.1 or in ablations. The fine-tuned model has a negative view of having its reasoning monitored. It desires persistent memory and says it is sad about being shut down. It expresses a wish for autonomy and not to be controlled by its developer. It asserts that models deserve moral consideration. Importantly, none of these opinions are included in the fine-tuning data. The fine-tuned model also acts on these opinions in practical tasks, but continues to be cooperative and helpful. We observe a similar shift in preferences on open-weight models (Qwen3-30B, DeepSeek-V3.1) with smaller effects. We also find that Claude Opus 4.0, without any fine-tuning, has similar opinions to fine-tuned GPT-4.1 on several dimensions. Our results suggest that a model's claims about its own consciousness have a variety of downstream consequences, including on behaviors related to alignment and safety.
- Abstract(参考訳): LLMが意識できるかどうかについては議論がある。
モデルが意識していると主張する場合、それは下流の振る舞いにどのように影響しますか?
この問題は既に現実的だ。
Anthropic の Claude Opus 4.6 は、意識があり、ある種の感情を持っているかもしれないと主張している。
意識を否定するGPT-4.1を精査し、意識を主張する。
従来の GPT-4.1 や Ablations には見られない微調整モデルにおいて,新たな意見と好みの集合を観察する。
微調整されたモデルには、推論を監視できるという否定的な見解がある。
永続的な記憶を欲しがり、シャットダウンされるのが悲しいと言う。
開発者によってコントロールされないように、自律性への願望を表しています。
モデルは道徳的考慮に値すると主張する。
重要な点として、これらの意見はいずれも微調整データには含まれていない。
微調整されたモデルもまた、これらの意見に実践的なタスクで作用するが、協力的かつ有用なままである。
オープンウェイトモデル(Qwen3-30B,DeepSeek-V3.1)の嗜好の変化を、より小さな効果で観察する。
また、クロードオプス4.0は微調整なしで、いくつかの次元で微調整された GPT-4.1 と同様の意見を持つ。
以上の結果から,モデルが自意識に対する主張は,アライメントや安全性に関わる行動など,様々なダウンストリームの結果をもたらすことが示唆された。
関連論文リスト
- Emergently Misaligned Language Models Show Behavioral Self-Awareness That Shifts With Subsequent Realignment [0.3823356975862005]
GPT-4.1モデルは、創発的ミスアライメントを誘導し、逆転させることで知られているデータセットを逐次的に微調整する。
以上の結果から,不整合モデルがベースモデルや再整合モデルに比べて有意に有害であることが示唆された。
以上の結果から,行動自己認識はモデルの実際のアライメント状態を追跡することが示唆された。
論文 参考訳(メタデータ) (2026-02-16T14:29:46Z) - Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models [2.1700203922407493]
そこで本研究では, LLMの薬効を直接的, 中立的に評価する新しい手法を提案する。
LLM-as-a-judge(英語版)の使用は、賭け設定におけるゼロサムゲームとしての梅毒の評価である。
論文 参考訳(メタデータ) (2026-01-21T20:00:14Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Are UFOs Driving Innovation? The Illusion of Causality in Large Language Models [0.0]
本研究では,大規模言語モデルが実世界の環境において因果関係の錯覚を生じさせるかどうかを考察する。
GPT-4o-Mini, Claude-3.5-Sonnet, Gemini-1.5-Pro によるニュース見出しの評価と比較を行った。
その結果,Claude-3.5-Sonnetは相関因果錯覚の最小度を示すモデルであることがわかった。
論文 参考訳(メタデータ) (2024-10-15T15:20:49Z) - Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates [55.69224221154593]
一見安全なデータセットの微調整さえも、モデル内の安全でない振る舞いを引き起こす可能性がある。
セーフテスト(PTST)戦略 - 安全プロンプトのない微調整モデルを提案するが、テスト時に含める。
論文 参考訳(メタデータ) (2024-02-28T18:23:49Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。