論文の概要: Measuring Psychological Depth in Language Models
- arxiv url: http://arxiv.org/abs/2406.12680v2
- Date: Fri, 04 Oct 2024 10:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:11.320050
- Title: Measuring Psychological Depth in Language Models
- Title(参考訳): 言語モデルにおける心理的深度の測定
- Authors: Fabrice Harel-Canada, Hanyu Zhou, Sreya Muppalla, Zeynep Yildiz, Miryung Kim, Amit Sahai, Nanyun Peng,
- Abstract要約: 本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
- 参考スコア(独自算出の注目度): 50.48914935872879
- License:
- Abstract: Evaluations of creative stories generated by large language models (LLMs) often focus on objective properties of the text, such as its style, coherence, and diversity. While these metrics are indispensable, they do not speak to a story's subjective, psychological impact from a reader's perspective. We introduce the Psychological Depth Scale (PDS), a novel framework rooted in literary theory that measures an LLM's ability to produce authentic and narratively complex stories that provoke emotion, empathy, and engagement. We empirically validate our framework by showing that humans can consistently evaluate stories based on PDS (0.72 Krippendorff's alpha). We also explore techniques for automating the PDS to easily scale future analyses. GPT-4o, combined with a novel Mixture-of-Personas (MoP) prompting strategy, achieves an average Spearman correlation of 0.51 with human judgment while Llama-3-70B with constrained decoding scores as high as 0.68 for empathy. Finally, we compared the depth of stories authored by both humans and LLMs. Surprisingly, GPT-4 stories either surpassed or were statistically indistinguishable from highly-rated human-written stories sourced from Reddit. By shifting the focus from text to reader, the Psychological Depth Scale is a validated, automated, and systematic means of measuring the capacity of LLMs to connect with humans through the stories they tell.
- Abstract(参考訳): 大きな言語モデル(LLM)によって生成された創造的ストーリーの評価は、しばしば、そのスタイル、コヒーレンス、多様性など、テキストの客観的な特性に焦点を当てる。
これらの指標は不可欠であるが、読者の視点からの物語の主観的、心理的影響には触れない。
本稿では, LLMが感情, 共感, エンゲージメントを喚起する, 真正かつ物語的に複雑な物語を創出する能力を測定する, 文学理論に根ざした新しい枠組みであるPDSを紹介する。
我々は PDS (0.72 クリッペンドルフのα) に基づいた物語を連続的に評価できることを示し、我々の枠組みを実証的に検証した。
また,PSDを自動化して将来の分析を容易にスケールする手法についても検討する。
GPT-4oは新規なMixture-of-Personas(MoP)促進戦略と組み合わされ、平均スピアマン相関は人間による判断と0.51であり、Llama-3-70Bは共感のために0.68まで制限された復号スコアを持つ。
最後に、人間とLLMの両方で書かれたストーリーの深さを比較した。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
テキストから読者に焦点を移すことによって、心理学的深度尺度は、LLMが語る物語を通して人間と接続する能力を測定する、検証され、自動化され、体系化された手段である。
関連論文リスト
- Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - HEART-felt Narratives: Tracing Empathy and Narrative Style in Personal Stories with LLMs [30.636456219922906]
共感は、社会的な行動を可能にするための基盤となり、物語の中で個人的な経験を共有することによって引き起こされる。
共感は物語の内容に影響されるが、直感的には物語の語り方にも反応する。
我々は, LLMと大規模クラウドソーシング研究を用いて, スタイルと共感の関係を実証的に検証し, 定量化する。
論文 参考訳(メタデータ) (2024-05-27T20:00:38Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - A Computational Approach to Measure Empathy and Theory-of-Mind from
Written Texts [5.105390149198602]
理論・オブ・ミンド(英: Theory-of-mind、ToM)は、他人の意図や考えを推測する人間の能力である。
ToM-Diaryは、クラウドソーシングされた18,238の日記で、ToMレベルが異なる74,014の韓国語文が注釈付けされている。
論文 参考訳(メタデータ) (2021-08-26T14:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。