Fugu-MT 論文翻訳(概要): CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation

論文の概要: CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation

arxiv url: http://arxiv.org/abs/2401.01275v2
Date: Tue, 9 Jan 2024 18:54:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 18:58:09.924872
Title: CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation
Title（参考訳）: characterEval: ロールプレイング対話エージェント評価のための中国語ベンチマーク
Authors: Quan Tu, Shilong Fan, Zihang Tian, Rui Yan
Abstract要約: 総合的なRPCA評価のための中国のベンチマークである characterEval を紹介する。データセットは1,785のマルチターンロールプレイング対話で構成され、23,020のサンプルと77の文字を含む。 CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
参考スコア（独自算出の注目度）: 20.31635307504041
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, the advent of large language models (LLMs) has revolutionized generative agents. Among them, Role-Playing Conversational Agents (RPCAs) attract considerable attention due to their ability to emotionally engage users. However, the absence of a comprehensive benchmark impedes progress in this field. To bridge this gap, we introduce CharacterEval, a Chinese benchmark for comprehensive RPCA assessment, complemented by a tailored high-quality dataset. The dataset comprises 1,785 multi-turn role-playing dialogues, encompassing 23,020 examples and featuring 77 characters derived from Chinese novels and scripts. It was carefully constructed, beginning with initial dialogue extraction via GPT-4, followed by rigorous human-led quality control, and enhanced with in-depth character profiles sourced from Baidu Baike. CharacterEval employs a multifaceted evaluation approach, encompassing thirteen targeted metrics on four dimensions. Comprehensive experiments on CharacterEval demonstrate that Chinese LLMs exhibit more promising capabilities than GPT-4 in Chinese role-playing conversation. Source code, data source and reward model will be publicly accessible at https://github.com/morecry/CharacterEval.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) の出現は, 生成因子に革命をもたらした。その中でもRPCAs(Role-Playing Conversational Agents)は,ユーザを感情的にエンゲージする能力から注目されている。しかし、包括的なベンチマークの欠如はこの分野の進展を妨げている。このギャップを埋めるために、我々は、高品質なデータセットをカスタマイズした、包括的なRPCAアセスメントのための中国のベンチマークである characterEvalを紹介した。データセットは、1,785のマルチターンロールプレイングダイアログで構成され、23,020のサンプルを含み、中国の小説や脚本から派生した77の文字を含む。最初はGPT-4による対話抽出,続いて厳密な人間主導品質制御,さらにBaidu Baikeからの詳細な文字プロファイルの強化など,慎重に構築された。 CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。 CharacterEvalの総合的な実験により、中国のLLMは中国のロールプレイング会話において、GPT-4よりも有望な能力を示した。ソースコード、データソース、報酬モデルはhttps://github.com/morecry/CharacterEval.comで公開されている。

関連論文リスト

CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs [71.01843542502438]
我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。 CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。 CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
論文参考訳（メタデータ） (2025-10-07T15:33:52Z)
RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.06936588273868]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文参考訳（メタデータ） (2025-07-27T16:49:47Z)
COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values [43.09443095372083]
高品質で大規模な中国の嗜好データセットであるCOIG-Pを紹介する。これは、Chat、Code、Math、Logic、Nove、Roleの6つの異なるドメインにまたがる1009万の中国の好みペアで構成されている。スコアリングにLLMを使用する場合のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国語リワードモデルを訓練した。
論文参考訳（メタデータ） (2025-04-07T22:15:51Z)
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文参考訳（メタデータ） (2025-02-13T08:55:24Z)
CharacterBench: Benchmarking Character Customization of Large Language Models [80.29164862682063]
我々は,最大2言語生成ベンチマークである characterBench を提案し,3,956 文字を含む22,859 人の注釈付きサンプルを作成した。我々は,各応答に現れる特定の次元によって評価される特徴量に基づいて,スパース次元と密度次元に分類される6つの側面の11次元を定義する。また,コスト効率と安定した評価のためのキャラクタジャッジモデルも開発している。
論文参考訳（メタデータ） (2024-12-16T15:55:34Z)
Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。 character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文参考訳（メタデータ） (2024-03-19T02:25:29Z)
RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models [44.105939096171454]
本稿では,役割知識の記憶,利用,推論能力を評価するためのベンチマークであるRoleEvalを紹介する。 RoleEvalはRoleEval-GlobalとRoleEval-Chinaで構成される。
論文参考訳（メタデータ） (2023-12-26T17:40:55Z)
AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文参考訳（メタデータ） (2023-11-30T17:41:30Z)
CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models [66.4382820107453]
本稿では,ChatGLM上に構築されたモデルである characterGLM について紹介する。我々のキャラクタGLMは文字ベースの対話(CharacterDial)を生成するために設計されており、人間固有の社会的欲求と感情的欲求を満たすための文字カスタマイズを備えた対話型AIシステムを実現することを目的としている。
論文参考訳（メタデータ） (2023-11-28T14:49:23Z)
Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文参考訳（メタデータ） (2023-08-15T11:08:30Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文参考訳（メタデータ） (2023-05-23T17:33:27Z)
SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文参考訳（メタデータ） (2023-05-22T16:25:07Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Large Language Models Meet Harry Potter: A Bilingual Dataset for Aligning Dialogue Agents with Characters [70.84938803753062]
本稿では,対話エージェントと文字アライメントの研究を進めるために設計されたHarry Potter Dialogueデータセットを紹介する。このデータセットはハリー・ポッターシリーズのすべての対話セッション(英語と中国語の両方)を含んでいる。対話シーン、話者、人物関係、属性など、重要な背景情報とともに注釈付けされている。
論文参考訳（メタデータ） (2022-11-13T10:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。