論文の概要: Forma mentis networks predict creativity ratings of short texts via interpretable artificial intelligence in human and GPT-simulated raters
- arxiv url: http://arxiv.org/abs/2412.00530v1
- Date: Sat, 30 Nov 2024 16:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:31.824778
- Title: Forma mentis networks predict creativity ratings of short texts via interpretable artificial intelligence in human and GPT-simulated raters
- Title(参考訳): フォルマ・メンティス・ネットワークはヒトおよびGPT模擬レーナーにおける解釈可能な人工知能による短いテキストの創造性評価を予測する
- Authors: Edith Haim, Natalie Fischer, Salvatore Citraro, Giulio Rossetti, Massimo Stella,
- Abstract要約: 説明可能な人工知能(XAI)を用いて、メドニックの創造性に関する連想理論に比較した特徴が、人間に割り当てられた創造性評価とGPT-3.5を説明することができるかどうかを検証する。
GPT-3.5は「それ自身」のストーリーを好んでおり、人間と異なるストーリーを評価している。
- 参考スコア(独自算出の注目度): 0.1398098625978622
- License:
- Abstract: Creativity is a fundamental skill of human cognition. We use textual forma mentis networks (TFMN) to extract network (semantic/syntactic associations) and emotional features from approximately one thousand human- and GPT3.5-generated stories. Using Explainable Artificial Intelligence (XAI), we test whether features relative to Mednick's associative theory of creativity can explain creativity ratings assigned by humans and GPT-3.5. Using XGBoost, we examine three scenarios: (i) human ratings of human stories, (ii) GPT-3.5 ratings of human stories, and (iii) GPT-3.5 ratings of GPT-generated stories. Our findings reveal that GPT-3.5 ratings differ significantly from human ratings not only in terms of correlations but also because of feature patterns identified with XAI methods. GPT-3.5 favours 'its own' stories and rates human stories differently from humans. Feature importance analysis with SHAP scores shows that: (i) network features are more predictive for human creativity ratings but also for GPT-3.5's ratings of human stories; (ii) emotional features played a greater role than semantic/syntactic network structure in GPT-3.5 rating its own stories. These quantitative results underscore key limitations in GPT-3.5's ability to align with human assessments of creativity. We emphasise the need for caution when using GPT-3.5 to assess and generate creative content, as it does not yet capture the nuanced complexity that characterises human creativity.
- Abstract(参考訳): 創造性は人間の認知の基本的なスキルである。
我々は、約1000人の人間とGPT3.5生成物語から、テキスト・フォーマ・メンティス・ネットワーク(TFMN)を用いて、ネットワーク(セマンティック・シンタクティック・アソシエーション)と感情的特徴を抽出する。
説明可能な人工知能(XAI)を用いて、メドニックの創造性に関する連想理論に関連する特徴が、人間に割り当てられた創造性評価とGPT-3.5を説明することができるかどうかを検証する。
XGBoost を用いて3つのシナリオを検証した。
一 人間の物語の格付け
(二 人談のGPT-3.5の評価及び
三 GPT-3.5 GPT生成物の評価
以上の結果から,GPT-3.5評価は相関だけでなく,XAI法で同定された特徴パターンによって人体評価と大きく異なることが明らかとなった。
GPT-3.5は「それ自身」のストーリーを好んでおり、人間と異なるストーリーを評価している。
SHAPスコアを用いた特徴重要度分析は、以下のことを示している。
(i)ネットワーク機能は,人間の創造性評価だけでなく,GPT-3.5の人間ストーリー評価にも有益である。
(II)感情的特徴は, GPT-3.5において, セマンティック・シンタクティック・ネットワーク構造よりも大きな役割を果たした。
これらの定量的結果は、GPT-3.5の人間の創造性評価と整合する能力において、重要な限界を浮き彫りにした。
我々は、GPT-3.5を用いて創造的コンテンツを評価・生成する場合、人間の創造性を特徴づける複雑さをまだ捉えていないため、注意が必要であることを強調する。
関連論文リスト
- Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文 参考訳(メタデータ) (2024-06-18T14:51:54Z) - Investigating Wit, Creativity, and Detectability of Large Language Models in Domain-Specific Writing Style Adaptation of Reddit's Showerthoughts [17.369951848952265]
ショーア思想の領域において,LLMが人間の書体スタイルを簡潔で創造的なテキストで再現する能力について検討する。
創造的で機知に富んだテキストの品質を考慮に入れた、特定の次元のテキストに対する人間の嗜好を測定する。
人間の評価者は、生成したテキストの創造性について平均的にわずかに悪い評価を下すが、人間の文章とAI生成したテキストを確実に区別することはできないと結論付けている。
論文 参考訳(メタデータ) (2024-05-02T18:29:58Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation [93.55550787058012]
本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
論文 参考訳(メタデータ) (2024-01-08T18:52:09Z) - ChatGPT as a commenter to the news: can LLMs generate human-like
opinions? [3.0309690768567754]
我々は、GPT-3.5がオランダのニュース記事に対して、どの程度人間的なコメントを生成できるかを検討する。
複数のプロンプト技術で人間の類似性を解析する。
細調整されたBERTモデルでは,GPT-3.5生成したコメントと人手によるコメントを容易に区別できることがわかった。
論文 参考訳(メタデータ) (2023-12-21T15:46:36Z) - Inductive reasoning in humans and large language models [0.0]
GPT-3.5 と GPT-4 をヒト誘導的推論における古典的問題に適用した。
GPT-3.5は人間の行動の多くの側面を捉えるのに苦労しているが、GPT-4はより成功している。
論文 参考訳(メタデータ) (2023-06-11T00:23:25Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated
Text [46.260544251940125]
我々は、人間と機械によるテキストを区別する非専門家の能力を評価する研究を行っている。
トレーニングなしでは、GPT3--と人間によるテキストをランダムな確率レベルで区別する評価器があることが判明した。
論文 参考訳(メタデータ) (2021-06-30T19:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。