論文の概要: PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large
Language Models
- arxiv url: http://arxiv.org/abs/2403.02246v1
- Date: Mon, 4 Mar 2024 17:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:59:36.981278
- Title: PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large
Language Models
- Title(参考訳): phantom: パーソナリティが大規模言語モデルにおける思考理論推論に与える影響
- Authors: Fiona Anting Tan, Gerard Christopher Yeo, Fanyou Wu, Weijie Xu, Vinija
Jain, Aman Chadha, Kokil Jaidka, Yang Liu, See-Kiong Ng
- Abstract要約: 本研究では,大規模言語モデルにおけるパーソナリティの誘導が,理論・オブ・ミンド(ToM)推論能力にどのように影響するかを検討する。
3種類のToMタスクにおいて,特定の個人性がLLMの推論能力に大きな影響を与えることが判明した。
ToMにおけるパーソナリティプロンプトのばらつきを示すLCMは、パーソナリティテストにおいてより制御しやすい傾向にある。
- 参考スコア(独自算出の注目度): 26.62245573009214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) demonstrate that their
capabilities are comparable, or even superior, to humans in many tasks in
natural language processing. Despite this progress, LLMs are still inadequate
at social-cognitive reasoning, which humans are naturally good at. Drawing
inspiration from psychological research on the links between certain
personality traits and Theory-of-Mind (ToM) reasoning, and from prompt
engineering research on the hyper-sensitivity of prompts in affecting LLMs
capabilities, this study investigates how inducing personalities in LLMs using
prompts affects their ToM reasoning capabilities. Our findings show that
certain induced personalities can significantly affect the LLMs' reasoning
capabilities in three different ToM tasks. In particular, traits from the Dark
Triad have a larger variable effect on LLMs like GPT-3.5, Llama 2, and Mistral
across the different ToM tasks. We find that LLMs that exhibit a higher
variance across personality prompts in ToM also tends to be more controllable
in personality tests: personality traits in LLMs like GPT-3.5, Llama 2 and
Mistral can be controllably adjusted through our personality prompts. In
today's landscape where role-play is a common strategy when using LLMs, our
research highlights the need for caution, as models that adopt specific
personas with personalities potentially also alter their reasoning abilities in
an unexpected manner.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自然言語処理における多くのタスクにおいて、その能力が人間に匹敵する、あるいは優れていることを示している。
この進歩にもかかわらず、LLMは人類が自然に得意とする社会的認知的推論にはまだ不十分である。
特定の性格特性とToM推論の関連性に関する心理学的研究からインスピレーションを得て,LLMの能力に影響を及ぼすプロンプトの過敏性に関する工学的な研究から,LLMにおけるパーソナリティの誘導がToM推論能力にどのように影響するかを考察した。
その結果、3つの異なるtomタスクにおけるllmsの推論能力にある種の誘導的パーソナリティが影響する可能性が示唆された。
特にダークトライアドの特徴は、様々なToMタスクにわたるGPT-3.5、Llama 2、MistralのようなLCMに大きな変動効果を持つ。
GPT-3.5, Llama 2, Mistral などの LLM の性格特性は, パーソナリティ・プロンプトによって制御可能となる。
llmsを使う場合、ロールプレイが共通の戦略である今日のランドスケープでは、パーソナリティを持つ特定のペルソナを採用するモデルが予期しない方法で推論能力を変える可能性があるため、この研究は注意の必要性を強調している。
関連論文リスト
- Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。
本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。
実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Studying and improving reasoning in humans and machines [0.0]
大規模言語モデル(LLM)と人間における推論について検討し比較する。
以上の結果から, 含んでいるモデルの多くは, しばしばエラーを起こし, インデューサに基づく人間の推論に類似した推論誤差を示していた。
論文 参考訳(メタデータ) (2023-09-21T21:02:05Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。