論文の概要: Is "A Helpful Assistant" the Best Role for Large Language Models? A
Systematic Evaluation of Social Roles in System Prompts
- arxiv url: http://arxiv.org/abs/2311.10054v1
- Date: Thu, 16 Nov 2023 17:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:12:01.903433
- Title: Is "A Helpful Assistant" the Best Role for Large Language Models? A
Systematic Evaluation of Social Roles in System Prompts
- Title(参考訳): A Helpful Assistant"は大規模言語モデルにとって最高の役割か?
システムプロンプトにおける社会的役割の体系的評価
- Authors: Mingqian Zheng, Jiaxin Pei and David Jurgens
- Abstract要約: 本稿では,システムにおける社会的役割がモデル性能に与える影響を体系的に評価する。
提案手法は, モデルの性能を, 様々な質問に対して一貫して改善することを示す。
我々の結果は、AIシステムのためのシステムプロンプトの設計に役立てることができる。
- 参考スコア(独自算出の注目度): 16.58393484184649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting serves as the major way humans interact with Large Language Models
(LLM). Commercial AI systems commonly define the role of the LLM in system
prompts. For example, ChatGPT uses "You are a helpful assistant" as part of the
default system prompt. But is "a helpful assistant" the best role for LLMs? In
this study, we present a systematic evaluation of how social roles in system
prompts affect model performance. We curate a list of 162 roles covering 6
types of interpersonal relationships and 8 types of occupations. Through
extensive analysis of 3 popular LLMs and 2457 questions, we show that adding
interpersonal roles in prompts consistently improves the models' performance
over a range of questions. Moreover, while we find that using gender-neutral
roles and specifying the role as the audience leads to better performances,
predicting which role leads to the best performance remains a challenging task,
and that frequency, similarity, and perplexity do not fully explain the effect
of social roles on model performances. Our results can help inform the design
of system prompts for AI systems. Code and data are available at
https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.
- Abstract(参考訳): プロンプティングは、人間がLarge Language Models (LLM)と対話する主要な方法である。
商用AIシステムは、システムプロンプトにおけるLLMの役割を一般的に定義する。
例えば、chatgptはデフォルトのシステムプロンプトの一部として"you are a useful assistant"を使用している。
しかし、LLMにとって「補助アシスタント」は最高の役割なのだろうか?
本研究では,システムにおける社会的役割がモデル性能に与える影響を体系的に評価する。
6種類の対人関係と8種類の職業をカバーする162個の役割のリストを作成した。
3つのLLMと2457の質問を広範囲に分析することにより、プロンプトに対人的な役割を加えることで、様々な質問に対してモデルの性能が一貫して向上することを示す。
さらに,ジェンダーニュートラルな役割の使用や,オーディエンスとしての役割の特定はパフォーマンスの向上につながるが,どの役割が最高のパフォーマンスにつながるかを予測することは依然として困難な課題であり,頻度,類似性,難易度がモデルパフォーマンスに与える影響を十分に説明できない。
我々の結果は、AIシステムのためのシステムプロンプトの設計に役立てることができる。
コードとデータはhttps://github.com/jiaxin-pei/prompting-with-social-rolesで入手できる。
関連論文リスト
- From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - RoleInteract: Evaluating the Social Interaction of Role-Playing Agents [85.6641890712617]
社会的相互作用の個人レベルとグループレベルの両方において、ロールプレイング・会話エージェントの社会的性を評価するために設計された最初のベンチマークを紹介する。
ベンチマークはさまざまなソースから構築され、500文字以上と6000以上の質問プロンプトをカバーする。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [83.90471827695625]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - About latent roles in forecasting players in team sports [47.066729480128856]
チームスポーツは、チームメイトと相手とのインタラクションに影響を与える重要な社会的要素を含んでいる。
RolForはロールベースのForecastingのための新しいエンドツーエンドモデルです。
論文 参考訳(メタデータ) (2023-04-17T13:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。