Fugu-MT 論文翻訳(概要): Is "A Helpful Assistant" the Best Role for Large Language Models? A Systematic Evaluation of Social Roles in System Prompts

論文の概要: Is "A Helpful Assistant" the Best Role for Large Language Models? A Systematic Evaluation of Social Roles in System Prompts

arxiv url: http://arxiv.org/abs/2311.10054v1
Date: Thu, 16 Nov 2023 17:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 13:12:01.903433
Title: Is "A Helpful Assistant" the Best Role for Large Language Models? A Systematic Evaluation of Social Roles in System Prompts
Title（参考訳）: A Helpful Assistant"は大規模言語モデルにとって最高の役割か? システムプロンプトにおける社会的役割の体系的評価
Authors: Mingqian Zheng, Jiaxin Pei and David Jurgens
Abstract要約: 本稿では,システムにおける社会的役割がモデル性能に与える影響を体系的に評価する。提案手法は, モデルの性能を, 様々な質問に対して一貫して改善することを示す。我々の結果は、AIシステムのためのシステムプロンプトの設計に役立てることができる。
参考スコア（独自算出の注目度）: 16.58393484184649
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses "You are a helpful assistant" as part of the default system prompt. But is "a helpful assistant" the best role for LLMs? In this study, we present a systematic evaluation of how social roles in system prompts affect model performance. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 types of occupations. Through extensive analysis of 3 popular LLMs and 2457 questions, we show that adding interpersonal roles in prompts consistently improves the models' performance over a range of questions. Moreover, while we find that using gender-neutral roles and specifying the role as the audience leads to better performances, predicting which role leads to the best performance remains a challenging task, and that frequency, similarity, and perplexity do not fully explain the effect of social roles on model performances. Our results can help inform the design of system prompts for AI systems. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.
Abstract（参考訳）: プロンプティングは、人間がLarge Language Models (LLM)と対話する主要な方法である。商用AIシステムは、システムプロンプトにおけるLLMの役割を一般的に定義する。例えば、chatgptはデフォルトのシステムプロンプトの一部として"you are a useful assistant"を使用している。しかし、LLMにとって「補助アシスタント」は最高の役割なのだろうか? 本研究では,システムにおける社会的役割がモデル性能に与える影響を体系的に評価する。 6種類の対人関係と8種類の職業をカバーする162個の役割のリストを作成した。 3つのLLMと2457の質問を広範囲に分析することにより、プロンプトに対人的な役割を加えることで、様々な質問に対してモデルの性能が一貫して向上することを示す。さらに,ジェンダーニュートラルな役割の使用や,オーディエンスとしての役割の特定はパフォーマンスの向上につながるが,どの役割が最高のパフォーマンスにつながるかを予測することは依然として困難な課題であり,頻度,類似性,難易度がモデルパフォーマンスに与える影響を十分に説明できない。我々の結果は、AIシステムのためのシステムプロンプトの設計に役立てることができる。コードとデータはhttps://github.com/jiaxin-pei/prompting-with-social-rolesで入手できる。

関連論文リスト

Helpful assistant or fruitful facilitator? Investigating how personas affect language model behavior [2.4095382017500464]
大きな言語モデル(LLM)から世代をパーソナライズし、ステアリングする方法の1つは、ペルソナを割り当てることである。本稿では,ペルソナがモデル行動の多様な側面に与える影響について考察する。
論文参考訳（メタデータ） (2024-07-02T09:36:54Z)
Large Language Models Can Infer Personality from Free-Form User Interactions [0.0]
GPT-4は、パーソナリティを適度な精度で推測することができ、以前のアプローチよりも優れていた。その結果,人格評価への直接的注力は,ユーザエクスペリエンスの低下を招いていないことがわかった。予備的な分析は、人格推定の正確さは、社会デミノグラフィーのサブグループによってわずかに異なることを示唆している。
論文参考訳（メタデータ） (2024-05-19T20:33:36Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文参考訳（メタデータ） (2023-10-08T21:03:18Z)
Large Language Models Can Infer Psychological Dispositions of Social Media Users [1.0923877073891446]
GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。その結果, LLM-inferred と self-reported trait score の間には r =.29 (range = [.22,.33]) の相関が認められた。予測は、いくつかの特徴について、女性と若い個人にとってより正確であることが判明し、基礎となるトレーニングデータやオンライン自己表現の違いから生じる潜在的なバイアスが示唆された。
論文参考訳（メタデータ） (2023-09-13T01:27:48Z)
Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文参考訳（メタデータ） (2023-05-25T21:01:00Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)
Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。 BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文参考訳（メタデータ） (2021-04-18T05:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。