Fugu-MT 論文翻訳(概要): RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models

論文の概要: RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2312.16132v2
Date: Fri, 16 Feb 2024 10:02:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:31:03.245537
Title: RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models
Title（参考訳）: roleeval: 大規模言語モデルのためのバイリンガル役割評価ベンチマーク
Authors: Tianhao Shen, Sun Li, Quan Tu, Deyi Xiong
Abstract要約: 本稿では,役割知識の記憶,利用,推論能力を評価するためのベンチマークであるRoleEvalを紹介する。 RoleEvalはRoleEval-GlobalとRoleEval-Chinaで構成される。
参考スコア（独自算出の注目度）: 44.105939096171454
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The rapid evolution of large language models necessitates effective benchmarks for evaluating their role knowledge, which is essential for establishing connections with the real world and providing more immersive interactions. This paper introduces RoleEval, a bilingual benchmark designed to assess the memorization, utilization, and reasoning capabilities of role knowledge. RoleEval comprises RoleEval-Global (including internationally recognized characters) and RoleEval-Chinese (including characters popular in China), with 6,000 Chinese-English parallel multiple-choice questions focusing on 300 influential people and fictional characters drawn from a variety of domains including celebrities, anime, comics, movies, TV series, games, and fictions. These questions cover basic knowledge and multi-hop reasoning abilities, aiming to systematically probe various aspects such as personal information, relationships, abilities, and experiences of the characters. To maintain high standards, we perform a hybrid quality check process combining both automatic and human verification, ensuring that the questions are diverse, challenging, and discriminative. Our extensive evaluations with RoleEval across various open-source and proprietary large language models, under both the zero- and few-shot settings, reveal insightful findings. Notably, while GPT-4 outperforms other models on RoleEval-Global, Chinese large language models excel on RoleEval-Chinese, highlighting significant knowledge distribution differences. We expect that RoleEval would highlight the significance of assessing role knowledge for large language models across various languages and cultural settings.
Abstract（参考訳）: 大きな言語モデルの急速な進化は、実世界とのつながりを確立し、より没入的な相互作用を提供するために不可欠な役割知識を評価するために効果的なベンチマークを必要とする。本稿では,役割知識の記憶,利用,推論能力を評価するために設計されたバイリンガルベンチマークであるRoleEvalを紹介する。 RoleEvalはRoleEval-Global(国際的に認知されているキャラクターを含む)とRoleEval-China(中国で人気があるキャラクターを含む)で構成されており、300人の影響力のある人々や、有名人、アニメ、コミック、映画、テレビシリーズ、ゲーム、フィクションなど、様々な領域から引き出された架空のキャラクターに焦点をあてた6000の中国語と英語のパラレルなマルチチョイスの質問がある。これらの質問は、基本知識とマルチホップ推論能力を含み、個人情報、関係性、能力、キャラクターの経験など様々な側面を体系的に探究することを目的としている。高水準を維持するために、我々は、自動検証と人的検証を組み合わせたハイブリッド品質チェックプロセスを実行し、質問が多様で、挑戦的で、差別的であることを保証する。 RoleEvalのさまざまなオープンソースおよびプロプライエタリな大規模言語モデルに対する広範な評価は、ゼロショットと少数ショットの両方で、洞察に富んだ結果を示している。特に、GPT-4はRoleEval-Globalで他のモデルより優れているが、中国の大言語モデルはRoleEval-Chinaより優れている。 RoleEvalは、さまざまな言語や文化的な設定において、大きな言語モデルのロール知識を評価することの重要性を強調します。

関連論文リスト

SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文参考訳（メタデータ） (2025-08-04T03:18:36Z)
Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent [18.67432557362308]
TTM(Test-Time-Matching)は、テスト時間スケーリングとコンテキストエンジニアリングによる、トレーニング不要なロールプレイングフレームワークである。我々のフレームワークは、これらの機能を制御されたロールプレイングに利用する、構造化された3段階生成パイプラインを含んでいる。高忠実なロールプレイングのパフォーマンスを実現し、多様な言語スタイルのシームレスな組み合わせや、個性や記憶のバリエーションも実現している。
論文参考訳（メタデータ） (2025-07-22T17:47:44Z)
Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models [26.91963265869296]
本研究は,インターネットミームにおける物語的役割の特定という課題について考察する。元々は'他'クラスにスキューされたアノテーション付きデータセットの上に構築される。包括的語彙および構造解析は、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
論文参考訳（メタデータ） (2025-06-29T07:12:11Z)
Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-02-18T16:11:54Z)
Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文参考訳（メタデータ） (2025-02-18T14:32:17Z)
Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [21.079199282600907]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文参考訳（メタデータ） (2024-11-26T08:21:24Z)
Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。 Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。 Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文参考訳（メタデータ） (2024-10-16T19:34:34Z)
MINDECHO: Role-Playing Language Agents for Key Opinion Leaders [50.43050502970816]
本稿では、キーオピニオンリーダー(KOL)の開発と評価のためのフレームワークであるMINDECHOを紹介する。 MINDECHOは、様々な専門分野のインターネットビデオテキストからKOLデータを収集し、GPT-4を利用して会話を合成する。 KOLの一般次元(e, knowledge, tone)とファン中心次元の両方を対象として評価を行った。
論文参考訳（メタデータ） (2024-07-07T09:08:33Z)
Enhancing LLM-Based Human-Robot Interaction with Nuances for Diversity Awareness [0.0]
本稿では,大規模言語モデル(LLM)の機能を活用した多様性を考慮した自律会話システムを提案する。このシステムは、背景、性格、年齢、性別、文化といった要因を考慮して、多様な人口や個人に適応する。システムの性能を評価するため,制御と実環境の両方の実験を行い,幅広い性能指標を測定した。
論文参考訳（メタデータ） (2024-06-25T13:15:36Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Decomposed Prompting: Unveiling Multilingual Linguistic Structure Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-02-28T15:15:39Z)
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文参考訳（メタデータ） (2024-01-23T03:56:22Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文参考訳（メタデータ） (2023-10-09T04:48:14Z)
Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文参考訳（メタデータ） (2022-04-05T17:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。