論文の概要: Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation
- arxiv url: http://arxiv.org/abs/2306.01183v1
- Date: Thu, 1 Jun 2023 22:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:33:18.689624
- Title: Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation
- Title(参考訳): ゼロショットパーソナリティ推定のためのGPT-3のシステム評価
- Authors: Adithya V Ganesan, Yash Kumar Lal, August H{\aa}kan Nilsson, H. Andrew
Schwartz
- Abstract要約: GPT-3は、ユーザのソーシャルメディア投稿からBig 5の性格特性を推定するために使用される。
GPT-3の性能は、広く分類するために既存の訓練済みのSotAに近いことが判明した。
我々は、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、体系的な誤りを説明できる。
- 参考スコア(独自算出の注目度): 12.777659013330823
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Very large language models (LLMs) perform extremely well on a spectrum of NLP
tasks in a zero-shot setting. However, little is known about their performance
on human-level NLP problems which rely on understanding psychological concepts,
such as assessing personality traits. In this work, we investigate the
zero-shot ability of GPT-3 to estimate the Big 5 personality traits from users'
social media posts. Through a set of systematic experiments, we find that
zero-shot GPT-3 performance is somewhat close to an existing pre-trained SotA
for broad classification upon injecting knowledge about the trait in the
prompts. However, when prompted to provide fine-grained classification, its
performance drops to close to a simple most frequent class (MFC) baseline. We
further analyze where GPT-3 performs better, as well as worse, than a
pretrained lexical model, illustrating systematic errors that suggest ways to
improve LLMs on human-level NLP tasks.
- Abstract(参考訳): 非常に大きな言語モデル(LLM)は、ゼロショット設定でのNLPタスクのスペクトルにおいて非常によく機能する。
しかしながら、人格特性の評価など、心理的概念の理解に依存する人間レベルのNLP問題に対する彼らの業績については、ほとんど分かっていない。
本研究では,GPT-3のゼロショット機能を用いて,ユーザのソーシャルメディア投稿からBig 5の性格特性を推定する。
系統的な実験により,ゼロショットgpt-3の性能は,プロンプトにその特性に関する知識を注入することで,より広い分類のために既存の事前学習されたsomaに近いことが判明した。
しかし、きめ細かい分類を提供するように促されると、その性能は単純な最も頻繁なクラス(mfc)ベースラインに近くなる。
我々はさらに、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、人間のNLPタスクにおけるLCMを改善する方法を提案する。
関連論文リスト
- A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Using cognitive psychology to understand GPT-3 [0.0]
我々は認知心理学のツールを用いて,近年の大規模言語モデルであるGPT-3を研究した。
我々は, GPT-3の意思決定, 情報探索, 検討, 因果推論能力を評価する。
論文 参考訳(メタデータ) (2022-06-21T20:06:03Z) - Thinking about GPT-3 In-Context Learning for Biomedical IE? Think Again [24.150464908060112]
本研究は,GPT-3のテキスト内学習を小型(BERTサイズ)PLMと比較した最初の体系的,包括的研究である。
以上の結果から, GPT-3 は, 小型 PLM の微調整に比べてまだ性能が劣っていることが示唆された。
論文 参考訳(メタデータ) (2022-03-16T05:56:08Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。