論文の概要: Language Models Represent Beliefs of Self and Others
- arxiv url: http://arxiv.org/abs/2402.18496v2
- Date: Thu, 29 Feb 2024 13:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:25:52.083498
- Title: Language Models Represent Beliefs of Self and Others
- Title(参考訳): 自己と他者の信念を表す言語モデル
- Authors: Wentao Zhu, Zhining Zhang, Yizhou Wang
- Abstract要約: 本稿では,言語モデルのニューラルアクティベーションを通じて,様々なエージェントの観点から,信念の状態を線形に復号化できることを述べる。
我々は,モデルにおけるToMパフォーマンスの劇的な変化を観察し,社会的推論プロセスにおけるそれらの重要な役割を浮き彫りにした。
- 参考スコア(独自算出の注目度): 16.443525249852428
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding and attributing mental states, known as Theory of Mind (ToM),
emerges as a fundamental capability for human social reasoning. While Large
Language Models (LLMs) appear to possess certain ToM abilities, the mechanisms
underlying these capabilities remain elusive. In this study, we discover that
it is possible to linearly decode the belief status from the perspectives of
various agents through neural activations of language models, indicating the
existence of internal representations of self and others' beliefs. By
manipulating these representations, we observe dramatic changes in the models'
ToM performance, underscoring their pivotal role in the social reasoning
process. Additionally, our findings extend to diverse social reasoning tasks
that involve different causal inference patterns, suggesting the potential
generalizability of these representations.
- Abstract(参考訳): 心の理論 (ToM) として知られる精神状態の理解と帰属は、人間の社会的推論の基本的な能力として現れる。
大きな言語モデル(LLM)は特定のToM能力を持っているように見えるが、これらの能力の基盤となるメカニズムはいまだ解明されていない。
本研究では,言語モデルのニューラルアクティベーションを通じて,様々なエージェントの視点から,自己や他者の信念の内部表現の存在を示す信念状態を線形にデコードすることが可能であることを見出した。
これらの表現を操作することで,モデルのToMパフォーマンスの劇的な変化を観察し,社会的推論プロセスにおけるそれらの重要な役割を明らかにする。
さらに, 因果的推論パターンの異なる多様な社会的推論タスクにも応用し, それらの表現の一般化可能性も示唆した。
関連論文リスト
- Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Visual cognition in multimodal large language models [13.768104721550321]
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
その結果、これらのモデルは、視覚データの処理と解釈において顕著な熟練度を示す一方で、これらの領域における人間の能力に欠けていることが判明した。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Unveiling Theory of Mind in Large Language Models: A Parallel to Single
Neurons in the Human Brain [2.5350521110810056]
大きな言語モデル(LLM)は、あるレベルの心の理論(ToM)を示すことが発見されている。
LLMのToMの能力や人間との類似性に基づく正確なプロセスはほとんど不明である。
論文 参考訳(メタデータ) (2023-09-04T15:26:15Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Language Models are Bounded Pragmatic Speakers: Understanding RLHF from
a Bayesian Cognitive Modeling Perspective [2.8282906214258805]
本稿では,有界プラグマティック話者と呼ばれる確率論的認知モデルを定式化する。
人間のフィードバックからの強化学習によって微調整された大きな言語モデルは、高速でスローなモデルに似た思考モデルを具現化していることを示す。
論文 参考訳(メタデータ) (2023-05-28T16:04:48Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。