論文の概要: CharacterBench: Benchmarking Character Customization of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.11912v1
- Date: Mon, 16 Dec 2024 15:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:24.690485
- Title: CharacterBench: Benchmarking Character Customization of Large Language Models
- Title(参考訳): characterBench: 大規模言語モデルのベンチマーク文字カスタマイズ
- Authors: Jinfeng Zhou, Yongkang Huang, Bosi Wen, Guanqun Bi, Yuxuan Chen, Pei Ke, Zhuang Chen, Xiyao Xiao, Libiao Peng, Kuntian Tang, Rongsheng Zhang, Le Zhang, Tangjie Lv, Zhipeng Hu, Hongning Wang, Minlie Huang,
- Abstract要約: 我々は,最大2言語生成ベンチマークである characterBench を提案し,3,956 文字を含む22,859 人の注釈付きサンプルを作成した。
我々は,各応答に現れる特定の次元によって評価される特徴量に基づいて,スパース次元と密度次元に分類される6つの側面の11次元を定義する。
また,コスト効率と安定した評価のためのキャラクタジャッジモデルも開発している。
- 参考スコア(独自算出の注目度): 80.29164862682063
- License:
- Abstract: Character-based dialogue (aka role-playing) enables users to freely customize characters for interaction, which often relies on LLMs, raising the need to evaluate LLMs' character customization capability. However, existing benchmarks fail to ensure a robust evaluation as they often only involve a single character category or evaluate limited dimensions. Moreover, the sparsity of character features in responses makes feature-focused generative evaluation both ineffective and inefficient. To address these issues, we propose CharacterBench, the largest bilingual generative benchmark, with 22,859 human-annotated samples covering 3,956 characters from 25 detailed character categories. We define 11 dimensions of 6 aspects, classified as sparse and dense dimensions based on whether character features evaluated by specific dimensions manifest in each response. We enable effective and efficient evaluation by crafting tailored queries for each dimension to induce characters' responses related to specific dimensions. Further, we develop CharacterJudge model for cost-effective and stable evaluations. Experiments show its superiority over SOTA automatic judges (e.g., GPT-4) and our benchmark's potential to optimize LLMs' character customization. Our repository is at https://github.com/thu-coai/CharacterBench.
- Abstract(参考訳): 文字ベースの対話(いわゆるロールプレイング)により、LLMに依存する対話用文字を自由にカスタマイズできるようになり、LLMの文字カスタマイズ能力を評価する必要性が高まっている。
しかしながら、既存のベンチマークは、単一の文字カテゴリのみを含む場合や、限られた次元を評価する場合が多いため、堅牢な評価を保証することができない。
さらに、応答における文字特徴の空間性は、特徴に着目した生成的評価を非効率と非効率の両方にする。
これらの問題に対処するために,25の詳細な文字カテゴリから3,956文字を対象とする22,859個の人手による注釈付きサンプルを用いた最大バイリンガル生成ベンチマークである characterBench を提案する。
我々は,各応答に現れる特定の次元によって評価される特徴量に基づいて,スパース次元と密度次元に分類される6つの側面の11次元を定義する。
我々は,各次元に調整されたクエリを作成し,特定の次元に関連する文字の応答を誘導することにより,効果的かつ効率的な評価を可能にする。
さらに,コスト効率と安定した評価のためのキャラクタジャッジモデルを開発した。
実験の結果,SOTA自動判断器(例えばGPT-4)よりも優れており,LLMの文字のカスタマイズを最適化するベンチマークの可能性も示された。
私たちのリポジトリはhttps://github.com/thu-coai/CharacterBench.comにあります。
関連論文リスト
- CHATTER: A Character Attribution Dataset for Narrative Understanding [31.540540919042154]
我々はChatterのサブセットであるChatterEvalを人間のアノテーションを用いて検証し、映画スクリプトの文字属性タスクの評価ベンチマークとして機能させる。
ChatterEvalは、言語モデルの物語理解と長文モデリング能力を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:37:30Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent
Evaluation [20.31635307504041]
総合的なRPCA評価のための中国のベンチマークである characterEval を紹介する。
データセットは1,785のマルチターンロールプレイング対話で構成され、23,020のサンプルと77の文字を含む。
CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
論文 参考訳(メタデータ) (2024-01-02T16:20:40Z) - CharacterGLM: Customizing Chinese Conversational AI Characters with
Large Language Models [66.4382820107453]
本稿では,ChatGLM上に構築されたモデルである characterGLM について紹介する。
我々のキャラクタGLMは文字ベースの対話(CharacterDial)を生成するために設計されており、人間固有の社会的欲求と感情的欲求を満たすための文字カスタマイズを備えた対話型AIシステムを実現することを目的としている。
論文 参考訳(メタデータ) (2023-11-28T14:49:23Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Large Language Models Meet Harry Potter: A Bilingual Dataset for
Aligning Dialogue Agents with Characters [70.84938803753062]
本稿では,対話エージェントと文字アライメントの研究を進めるために設計されたHarry Potter Dialogueデータセットを紹介する。
このデータセットはハリー・ポッターシリーズのすべての対話セッション(英語と中国語の両方)を含んでいる。
対話シーン、話者、人物関係、属性など、重要な背景情報とともに注釈付けされている。
論文 参考訳(メタデータ) (2022-11-13T10:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。