論文の概要: RoleEval: A Bilingual Role Evaluation Benchmark for Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.16132v1
- Date: Tue, 26 Dec 2023 17:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:47:23.429466
- Title: RoleEval: A Bilingual Role Evaluation Benchmark for Large Language
Models
- Title(参考訳): roleeval: 大規模言語モデルのためのバイリンガル役割評価ベンチマーク
- Authors: Tianhao Shen, Sun Li, Deyi Xiong
- Abstract要約: 本稿では,役割知識の記憶,利用,推論能力を評価するためのベンチマークであるRoleEvalを紹介する。
RoleEvalはRoleEval-GlobalとRoleEval-Chinaで構成される。
- 参考スコア(独自算出の注目度): 45.77235245276132
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid evolution of large language models (LLMs) necessitates effective
benchmarks for evaluating their role knowledge, which is essential for
establishing connections with the real world and providing more immersive
interactions. This paper introduces RoleEval, a bilingual benchmark designed to
assess the memorization, utilization, and reasoning capabilities of role
knowledge. RoleEval comprises RoleEval-Global (including internationally
recognized characters) and RoleEval-Chinese (including characters popular in
China), with 6,000 Chinese-English parallel multiple-choice questions focusing
on 300 influential people and fictional characters drawn from a variety of
domains including celebrities, anime, comics, movies, TV series, games, and
fiction. These questions cover basic knowledge and multi-hop reasoning
abilities, aiming to systematically probe various aspects such as personal
information, relationships, abilities, and experiences of the characters. To
maintain high standards, we perform a hybrid quality check process combining
automatic and human verification, ensuring that the questions are diverse,
challenging, and discriminative.
Our extensive evaluations of RoleEval across various open-source and
proprietary large language models, under both the zero- and few-shot settings,
reveal insightful findings. Notably, while GPT-4 outperforms other models on
RoleEval-Global, Chinese LLMs excel on RoleEval-Chinese, highlighting
significant knowledge distribution differences. We expect that RoleEval will
highlight the significance of assessing role knowledge for foundation models
across various languages and cultural settings.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、実世界とのつながりを確立し、より没入的な相互作用を提供するために不可欠な役割知識を評価するために効果的なベンチマークを必要とする。
本稿では,役割知識の記憶,利用,推論能力を評価するために設計されたバイリンガルベンチマークであるRoleEvalを紹介する。
RoleEvalはRoleEval-Global(国際的に認知されているキャラクターを含む)とRoleEval-China(中国で人気があるキャラクターを含む)で構成されており、300人の影響力のある人々や、有名人、アニメ、コミック、映画、テレビシリーズ、ゲーム、フィクションなど、様々な領域から引き出された架空のキャラクターに焦点をあてた、6000の中国語と英語のパラレルなマルチチョイスの質問がある。
これらの質問は、基本知識とマルチホップ推論能力を含み、個人情報、関係性、能力、キャラクターの経験など様々な側面を体系的に探究することを目的としている。
高水準を維持するために、我々は、自動検証と人間の検証を組み合わせたハイブリッド品質チェックプロセスを実行し、質問が多様で、挑戦的で、差別的であることを保証する。
さまざまなオープンソースおよびプロプライエタリな大規模言語モデルにおけるRoleEvalの広範な評価は、ゼロショットと少数ショットの両方で、洞察に富んだ結果を示している。
特に、GPT-4はRoleEval-Globalで他のモデルより優れているが、中国のLLMはRoleEval-Chinaより優れている。
RoleEvalは、さまざまな言語や文化的な設定において、基礎モデルのロール知識を評価することの重要性を強調します。
関連論文リスト
- Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [21.079199282600907]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。
この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文 参考訳(メタデータ) (2024-11-26T08:21:24Z) - Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。
Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。
Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文 参考訳(メタデータ) (2024-10-16T19:34:34Z) - MINDECHO: Role-Playing Language Agents for Key Opinion Leaders [50.43050502970816]
本稿では、キーオピニオンリーダー(KOL)の開発と評価のためのフレームワークであるMINDECHOを紹介する。
MINDECHOは、様々な専門分野のインターネットビデオテキストからKOLデータを収集し、GPT-4を利用して会話を合成する。
KOLの一般次元(e, knowledge, tone)とファン中心次元の両方を対象として評価を行った。
論文 参考訳(メタデータ) (2024-07-07T09:08:33Z) - Enhancing LLM-Based Human-Robot Interaction with Nuances for Diversity Awareness [0.0]
本稿では,大規模言語モデル(LLM)の機能を活用した多様性を考慮した自律会話システムを提案する。
このシステムは、背景、性格、年齢、性別、文化といった要因を考慮して、多様な人口や個人に適応する。
システムの性能を評価するため,制御と実環境の両方の実験を行い,幅広い性能指標を測定した。
論文 参考訳(メタデータ) (2024-06-25T13:15:36Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。