論文の概要: CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent
Evaluation
- arxiv url: http://arxiv.org/abs/2401.01275v2
- Date: Tue, 9 Jan 2024 18:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:58:09.924872
- Title: CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent
Evaluation
- Title(参考訳): characterEval: ロールプレイング対話エージェント評価のための中国語ベンチマーク
- Authors: Quan Tu, Shilong Fan, Zihang Tian, Rui Yan
- Abstract要約: 総合的なRPCA評価のための中国のベンチマークである characterEval を紹介する。
データセットは1,785のマルチターンロールプレイング対話で構成され、23,020のサンプルと77の文字を含む。
CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
- 参考スコア(独自算出の注目度): 20.31635307504041
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, the advent of large language models (LLMs) has revolutionized
generative agents. Among them, Role-Playing Conversational Agents (RPCAs)
attract considerable attention due to their ability to emotionally engage
users. However, the absence of a comprehensive benchmark impedes progress in
this field. To bridge this gap, we introduce CharacterEval, a Chinese benchmark
for comprehensive RPCA assessment, complemented by a tailored high-quality
dataset. The dataset comprises 1,785 multi-turn role-playing dialogues,
encompassing 23,020 examples and featuring 77 characters derived from Chinese
novels and scripts. It was carefully constructed, beginning with initial
dialogue extraction via GPT-4, followed by rigorous human-led quality control,
and enhanced with in-depth character profiles sourced from Baidu Baike.
CharacterEval employs a multifaceted evaluation approach, encompassing thirteen
targeted metrics on four dimensions. Comprehensive experiments on CharacterEval
demonstrate that Chinese LLMs exhibit more promising capabilities than GPT-4 in
Chinese role-playing conversation. Source code, data source and reward model
will be publicly accessible at https://github.com/morecry/CharacterEval.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の出現は, 生成因子に革命をもたらした。
その中でもRPCAs(Role-Playing Conversational Agents)は,ユーザを感情的にエンゲージする能力から注目されている。
しかし、包括的なベンチマークの欠如はこの分野の進展を妨げている。
このギャップを埋めるために、我々は、高品質なデータセットをカスタマイズした、包括的なRPCAアセスメントのための中国のベンチマークである characterEvalを紹介した。
データセットは、1,785のマルチターンロールプレイングダイアログで構成され、23,020のサンプルを含み、中国の小説や脚本から派生した77の文字を含む。
最初はGPT-4による対話抽出,続いて厳密な人間主導品質制御,さらにBaidu Baikeからの詳細な文字プロファイルの強化など,慎重に構築された。
CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
CharacterEvalの総合的な実験により、中国のLLMは中国のロールプレイング会話において、GPT-4よりも有望な能力を示した。
ソースコード、データソース、報酬モデルはhttps://github.com/morecry/CharacterEval.comで公開されている。
関連論文リスト
- COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [57.600941792026006]
高品質な中国語命令チューニングデータセットであるCOIG-CQIAを紹介する。
我々の目標は、モデル行動と人間の相互作用をよりよく整合させる、多種多様な命令チューニングデータセットを構築することである。
我々はCQIAの様々なサブセットで様々なスケールのモデルを訓練し、詳細な評価と分析を行った。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the
Generalizability of Large Language Models [74.08927882382943]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
28個のLCMを評価したところ,最高のモデルでは52.9%に過ぎず,顕著な性能差が認められた。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - RoleEval: A Bilingual Role Evaluation Benchmark for Large Language
Models [44.105939096171454]
本稿では,役割知識の記憶,利用,推論能力を評価するためのベンチマークであるRoleEvalを紹介する。
RoleEvalはRoleEval-GlobalとRoleEval-Chinaで構成される。
論文 参考訳(メタデータ) (2023-12-26T17:40:55Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。
合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:33:27Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Large Language Models Meet Harry Potter: A Bilingual Dataset for
Aligning Dialogue Agents with Characters [70.84938803753062]
本稿では,対話エージェントと文字アライメントの研究を進めるために設計されたHarry Potter Dialogueデータセットを紹介する。
このデータセットはハリー・ポッターシリーズのすべての対話セッション(英語と中国語の両方)を含んでいる。
対話シーン、話者、人物関係、属性など、重要な背景情報とともに注釈付けされている。
論文 参考訳(メタデータ) (2022-11-13T10:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。