Fugu-MT 論文翻訳(概要): Theory of Mind and Self-Attributions of Mentality are Dissociable in LLMs

論文の概要: Theory of Mind and Self-Attributions of Mentality are Dissociable in LLMs

arxiv url: http://arxiv.org/abs/2603.28925v1
Date: Mon, 30 Mar 2026 18:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:02.737117
Title: Theory of Mind and Self-Attributions of Mentality are Dissociable in LLMs
Title（参考訳）: 精神の理論と精神の自己貢献はLLMにおいて解離可能である
Authors: Junsol Kim, Winnie Street, Roberta Rocca, Daine M. Korngiebel, Adam Waytz, James Evans, Geoff Keeling,
Abstract要約: 大規模言語モデルにおける安全性の微調整は、潜在的に有害なマインド・アトリビューションを抑えることを目指している。本研究では,心帰属傾向の抑制が,心の理論などの社会的認知能力を低下させるか否かを考察する。
参考スコア（独自算出の注目度）: 5.102837155466049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety fine-tuning in Large Language Models (LLMs) seeks to suppress potentially harmful forms of mind-attribution such as models asserting their own consciousness or claiming to experience emotions. We investigate whether suppressing mind-attribution tendencies degrades intimately related socio-cognitive abilities such as Theory of Mind (ToM). Through safety ablation and mechanistic analyses of representational similarity, we demonstrate that LLM attributions of mind to themselves and to technological artefacts are behaviorally and mechanistically dissociable from ToM capabilities. Nevertheless, safety fine-tuned models under-attribute mind to non-human animals relative to human baselines and are less likely to exhibit spiritual belief, suppressing widely shared perspectives regarding the distribution and nature of non-human minds.
Abstract（参考訳）: LLM(Large Language Models)における安全性の微調整は、自身の意識を主張するモデルや感情を体験すると主張するモデルなど、潜在的に有害な精神帰属を抑えることを目指している。本研究では,心の理論 (ToM) などの社会的認知能力の低下について検討した。安全なアブレーションと表現類似性の機械的分析を通じて,LLMの心的属性と技術アーチファクトがToM能力から行動的かつ機械的に解離できることを実証する。しかしながら、安全性に配慮したモデルでは、人間のベースラインに対する非人間の動物への貢献が低く、精神的な信念を示す可能性が低く、非人間の心の分布と性質に関して広く共有される視点を抑える。

関連論文リスト

Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
Emergence of human-like polarization among large language model agents [79.96817421756668]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、分極を緩和するためのもっともらしい戦略を識別するための貴重なテストベッドとして機能する可能性も持っている。
論文参考訳（メタデータ） (2025-01-09T11:45:05Z)
Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文参考訳（メタデータ） (2024-07-08T14:58:29Z)
Can a Hallucinating Model help in Reducing Human "Hallucination"? [2.3633885460047774]
本研究では,大言語モデル(LLMs)が,一般的な論理的落とし穴を検出する上で,平均的な人間をビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビビ本研究では,LLMを誤認識に対処するための手法を提案し,説得の心理的モデルに基づく。
論文参考訳（メタデータ） (2024-05-01T20:10:44Z)
Language Models Represent Beliefs of Self and Others [14.630775330165529]
本稿では,言語モデルのニューラルアクティベーションを通じて,様々なエージェントの観点から,信念の状態を線形に復号化できることを述べる。我々は,モデルにおけるToMパフォーマンスの劇的な変化を観察し,社会的推論プロセスにおけるそれらの重要な役割を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-28T17:25:59Z)
Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2023-11-16T22:49:27Z)
Unveiling Theory of Mind in Large Language Models: A Parallel to Single Neurons in the Human Brain [2.5350521110810056]
大きな言語モデル(LLM)は、あるレベルの心の理論(ToM)を示すことが発見されている。 LLMのToMの能力や人間との類似性に基づく正確なプロセスはほとんど不明である。
論文参考訳（メタデータ） (2023-09-04T15:26:15Z)
Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文参考訳（メタデータ） (2022-10-24T14:58:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。