論文の概要: RoleEval: A Bilingual Role Evaluation Benchmark for Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.16132v2
- Date: Fri, 16 Feb 2024 10:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:31:03.245537
- Title: RoleEval: A Bilingual Role Evaluation Benchmark for Large Language
Models
- Title(参考訳): roleeval: 大規模言語モデルのためのバイリンガル役割評価ベンチマーク
- Authors: Tianhao Shen, Sun Li, Quan Tu, Deyi Xiong
- Abstract要約: 本稿では,役割知識の記憶,利用,推論能力を評価するためのベンチマークであるRoleEvalを紹介する。
RoleEvalはRoleEval-GlobalとRoleEval-Chinaで構成される。
- 参考スコア(独自算出の注目度): 44.105939096171454
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid evolution of large language models necessitates effective
benchmarks for evaluating their role knowledge, which is essential for
establishing connections with the real world and providing more immersive
interactions. This paper introduces RoleEval, a bilingual benchmark designed to
assess the memorization, utilization, and reasoning capabilities of role
knowledge. RoleEval comprises RoleEval-Global (including internationally
recognized characters) and RoleEval-Chinese (including characters popular in
China), with 6,000 Chinese-English parallel multiple-choice questions focusing
on 300 influential people and fictional characters drawn from a variety of
domains including celebrities, anime, comics, movies, TV series, games, and
fictions. These questions cover basic knowledge and multi-hop reasoning
abilities, aiming to systematically probe various aspects such as personal
information, relationships, abilities, and experiences of the characters. To
maintain high standards, we perform a hybrid quality check process combining
both automatic and human verification, ensuring that the questions are diverse,
challenging, and discriminative.
Our extensive evaluations with RoleEval across various open-source and
proprietary large language models, under both the zero- and few-shot settings,
reveal insightful findings. Notably, while GPT-4 outperforms other models on
RoleEval-Global, Chinese large language models excel on RoleEval-Chinese,
highlighting significant knowledge distribution differences. We expect that
RoleEval would highlight the significance of assessing role knowledge for large
language models across various languages and cultural settings.
- Abstract(参考訳): 大きな言語モデルの急速な進化は、実世界とのつながりを確立し、より没入的な相互作用を提供するために不可欠な役割知識を評価するために効果的なベンチマークを必要とする。
本稿では,役割知識の記憶,利用,推論能力を評価するために設計されたバイリンガルベンチマークであるRoleEvalを紹介する。
RoleEvalはRoleEval-Global(国際的に認知されているキャラクターを含む)とRoleEval-China(中国で人気があるキャラクターを含む)で構成されており、300人の影響力のある人々や、有名人、アニメ、コミック、映画、テレビシリーズ、ゲーム、フィクションなど、様々な領域から引き出された架空のキャラクターに焦点をあてた6000の中国語と英語のパラレルなマルチチョイスの質問がある。
これらの質問は、基本知識とマルチホップ推論能力を含み、個人情報、関係性、能力、キャラクターの経験など様々な側面を体系的に探究することを目的としている。
高水準を維持するために、我々は、自動検証と人的検証を組み合わせたハイブリッド品質チェックプロセスを実行し、質問が多様で、挑戦的で、差別的であることを保証する。
RoleEvalのさまざまなオープンソースおよびプロプライエタリな大規模言語モデルに対する広範な評価は、ゼロショットと少数ショットの両方で、洞察に富んだ結果を示している。
特に、GPT-4はRoleEval-Globalで他のモデルより優れているが、中国の大言語モデルはRoleEval-Chinaより優れている。
RoleEvalは、さまざまな言語や文化的な設定において、大きな言語モデルのロール知識を評価することの重要性を強調します。
関連論文リスト
- MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - RoleInteract: Evaluating the Social Interaction of Role-Playing Agents [85.6641890712617]
社会的相互作用の個人レベルとグループレベルの両方において、ロールプレイング・会話エージェントの社会的性を評価するために設計された最初のベンチマークを紹介する。
ベンチマークはさまざまなソースから構築され、500文字以上と6000以上の質問プロンプトをカバーする。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
論文 参考訳(メタデータ) (2023-05-17T14:56:31Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。