論文の概要: When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.10054v2
- Date: Mon, 07 Oct 2024 16:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:01:03.666907
- Title: When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
- Title(参考訳): ヘルプフルアシスタント」が本当に役に立たないとき--システムプロンプトのペルソナは大規模言語モデルの性能を向上しない
- Authors: Mingqian Zheng, Jiaxin Pei, Lajanugen Logeswaran, Moontae Lee, David Jurgens,
- Abstract要約: 商用AIシステムは一般に、システムプロンプトにおけるLarge Language Models(LLM)の役割を定義している。
客観的タスクにおいて、異なるペルソナがモデルのパフォーマンスにどの程度影響するかは、まだ不明である。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
- 参考スコア(独自算出の注目度): 34.831938712535084
- License:
- Abstract: Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses "You are a helpful assistant" as part of its default system prompt. Despite current practices of adding personas to system prompts, it remains unclear how different personas affect a model's performance on objective tasks. In this study, we present a systematic evaluation of personas in system prompts. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 domains of expertise. Through extensive analysis of 4 popular families of LLMs and 2,410 factual questions, we demonstrate that adding personas in system prompts does not improve model performance across a range of questions compared to the control setting where no persona is added. Nevertheless, further analysis suggests that the gender, type, and domain of the persona can all influence the resulting prediction accuracies. We further experimented with a list of persona search strategies and found that, while aggregating results from the best persona for each question significantly improves prediction accuracy, automatically identifying the best persona is challenging, with predictions often performing no better than random selection. Overall, our findings suggest that while adding a persona may lead to performance gains in certain settings, the effect of each persona can be largely random. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.
- Abstract(参考訳): プロンプティングは、人間がLarge Language Models (LLM)と対話する主要な方法である。
商用AIシステムは、システムプロンプトにおけるLLMの役割を一般的に定義する。
例えば、ChatGPTはデフォルトのシステムプロンプトの一部として"You are a useful assistant"を使用している。
システムプロンプトにペルソナを追加するという現在のプラクティスにもかかわらず、客観的タスクにおけるモデルのパフォーマンスに異なるペルソナがどのように影響するかは、まだ不明である。
本研究では,システムプロンプトにおけるペルソナの体系的評価について述べる。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
LLMの4つの一般的なファミリーと2,410の事実質問を広範囲に分析することにより、システムプロンプトにペルソナを追加することは、ペルソナを付加しない制御設定に比べて、様々な質問におけるモデル性能を向上しないことを示した。
それにもかかわらず、さらなる分析は、ペルソナの性別、タイプ、ドメインが、結果の予測精度に影響を与えることを示唆している。
さらにペルソナ検索戦略のリストを実験した結果,各質問に対するベストペルソナの結果の集約は予測精度を著しく向上させるが,最適なペルソナを自動的に識別することは困難であり,予測はランダム選択に劣らないことが多いことがわかった。
全体としては,ペルソナの追加は特定の設定でパフォーマンス向上につながる可能性があるが,各ペルソナの効果は概ねランダムであることが示唆された。
コードとデータはhttps://github.com/Jiaxin-Pei/Prompting-with-Social-Rolesで公開されている。
関連論文リスト
- Helpful assistant or fruitful facilitator? Investigating how personas affect language model behavior [2.4095382017500464]
大きな言語モデル(LLM)から世代をパーソナライズし、ステアリングする方法の1つは、ペルソナを割り当てることである。
本稿では,ペルソナがモデル行動の多様な側面に与える影響について考察する。
論文 参考訳(メタデータ) (2024-07-02T09:36:54Z) - Large Language Models Can Infer Personality from Free-Form User Interactions [0.0]
GPT-4は、パーソナリティを適度な精度で推測することができ、以前のアプローチよりも優れていた。
その結果,人格評価への直接的注力は,ユーザエクスペリエンスの低下を招いていないことがわかった。
予備的な分析は、人格推定の正確さは、社会デミノグラフィーのサブグループによってわずかに異なることを示唆している。
論文 参考訳(メタデータ) (2024-05-19T20:33:36Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - Large Language Models Can Infer Psychological Dispositions of Social Media Users [1.0923877073891446]
GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。
その結果, LLM-inferred と self-reported trait score の間には r =.29 (range = [.22,.33]) の相関が認められた。
予測は、いくつかの特徴について、女性と若い個人にとってより正確であることが判明し、基礎となるトレーニングデータやオンライン自己表現の違いから生じる潜在的なバイアスが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。
我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。
BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文 参考訳(メタデータ) (2021-04-18T05:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。