論文の概要: When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.10054v2
- Date: Mon, 07 Oct 2024 16:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:01:03.666907
- Title: When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
- Title(参考訳): ヘルプフルアシスタント」が本当に役に立たないとき--システムプロンプトのペルソナは大規模言語モデルの性能を向上しない
- Authors: Mingqian Zheng, Jiaxin Pei, Lajanugen Logeswaran, Moontae Lee, David Jurgens,
- Abstract要約: 商用AIシステムは一般に、システムプロンプトにおけるLarge Language Models(LLM)の役割を定義している。
客観的タスクにおいて、異なるペルソナがモデルのパフォーマンスにどの程度影響するかは、まだ不明である。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
- 参考スコア(独自算出の注目度): 34.831938712535084
- License:
- Abstract: Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses "You are a helpful assistant" as part of its default system prompt. Despite current practices of adding personas to system prompts, it remains unclear how different personas affect a model's performance on objective tasks. In this study, we present a systematic evaluation of personas in system prompts. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 domains of expertise. Through extensive analysis of 4 popular families of LLMs and 2,410 factual questions, we demonstrate that adding personas in system prompts does not improve model performance across a range of questions compared to the control setting where no persona is added. Nevertheless, further analysis suggests that the gender, type, and domain of the persona can all influence the resulting prediction accuracies. We further experimented with a list of persona search strategies and found that, while aggregating results from the best persona for each question significantly improves prediction accuracy, automatically identifying the best persona is challenging, with predictions often performing no better than random selection. Overall, our findings suggest that while adding a persona may lead to performance gains in certain settings, the effect of each persona can be largely random. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.
- Abstract(参考訳): プロンプティングは、人間がLarge Language Models (LLM)と対話する主要な方法である。
商用AIシステムは、システムプロンプトにおけるLLMの役割を一般的に定義する。
例えば、ChatGPTはデフォルトのシステムプロンプトの一部として"You are a useful assistant"を使用している。
システムプロンプトにペルソナを追加するという現在のプラクティスにもかかわらず、客観的タスクにおけるモデルのパフォーマンスに異なるペルソナがどのように影響するかは、まだ不明である。
本研究では,システムプロンプトにおけるペルソナの体系的評価について述べる。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
LLMの4つの一般的なファミリーと2,410の事実質問を広範囲に分析することにより、システムプロンプトにペルソナを追加することは、ペルソナを付加しない制御設定に比べて、様々な質問におけるモデル性能を向上しないことを示した。
それにもかかわらず、さらなる分析は、ペルソナの性別、タイプ、ドメインが、結果の予測精度に影響を与えることを示唆している。
さらにペルソナ検索戦略のリストを実験した結果,各質問に対するベストペルソナの結果の集約は予測精度を著しく向上させるが,最適なペルソナを自動的に識別することは困難であり,予測はランダム選択に劣らないことが多いことがわかった。
全体としては,ペルソナの追加は特定の設定でパフォーマンス向上につながる可能性があるが,各ペルソナの効果は概ねランダムであることが示唆された。
コードとデータはhttps://github.com/Jiaxin-Pei/Prompting-with-Social-Rolesで公開されている。
関連論文リスト
- Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data [58.92110996840019]
本稿では、パーソナリティを指標としたデータを用いて、ロールプレイング言語モデル(RPLM)を強化することを提案する。
具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。
実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。
論文 参考訳(メタデータ) (2024-06-27T06:24:00Z) - Prompt Framework for Role-playing: Generation and Evaluation [3.2845546753303867]
大規模言語モデル(LLM)は、自然言語の生成、ユーザ・インストラクションの理解、人間の言語使用の模倣において顕著な能力を示した。
本稿では,SOTA(State-of-the-art LLM)を利用して,ロールプレイング対話データセットを構築し,ロールプレイング性能を評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T06:09:56Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - RoleInteract: Evaluating the Social Interaction of Role-Playing Agents [85.6641890712617]
社会的相互作用の個人レベルとグループレベルの両方において、ロールプレイング・会話エージェントの社会的性を評価するために設計された最初のベンチマークを紹介する。
ベンチマークはさまざまなソースから構築され、500文字以上と6000以上の質問プロンプトをカバーする。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。