論文の概要: PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?
- arxiv url: http://arxiv.org/abs/2508.10014v1
- Date: Wed, 06 Aug 2025 13:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.007542
- Title: PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?
- Title(参考訳): ペルソナ・エバル:LLM評価者はロールプレイを判断するには十分か?
- Authors: Lingfeng Zhou, Jialing Zhang, Jin Gao, Mohan Jiang, Dequan Wang,
- Abstract要約: 我々は、ロール評価者が人間の役割を確実に特定できるかどうかをテストするための最初のベンチマークであるPersonaEvalを提示する。
人間の研究を含む我々の実験では、最高の性能のLSMでさえ69%の精度しか達成できていないことが示されています。
このギャップをよりよく理解するために、トレーニング時間適応とテスト時間計算について検討し、信頼性の高い評価にはタスク固有のチューニング以上のものが必要であることを示唆する。
- 参考スコア(独自算出の注目度): 13.537861623851054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current role-play studies often rely on unvalidated LLM-as-a-judge paradigms, which may fail to reflect how humans perceive role fidelity. A key prerequisite for human-aligned evaluation is role identification, the ability to recognize who is speaking based on dialogue context. We argue that any meaningful judgment of role-playing quality (how well a character is played) fundamentally depends on first correctly attributing words and actions to the correct persona (who is speaking). We present PersonaEval, the first benchmark designed to test whether LLM evaluators can reliably identify human roles. PersonaEval uses human-authored dialogues from novels, scripts, and video transcripts, challenging models to determine the correct persona according to the conversation context. Our experiments, including a human study, show that even the best-performing LLMs reach only around 69% accuracy, well below the level needed for reliable evaluation. In contrast, human participants perform near ceiling with 90.8% accuracy, highlighting that current LLM evaluators are still not human enough to effectively judge role-play scenarios. To better understand this gap, we examine training-time adaptation and test-time compute, suggesting that reliable evaluation requires more than task-specific tuning, but depends on strong, human-like reasoning abilities in LLM evaluators. We release our benchmark at https://github.com/maple-zhou/PersonaEval.
- Abstract(参考訳): 現在のロールプレイ研究は、人間がいかにして役割の忠実さを認識しているかを反映しない、無効なLCM-as-a-judgeパラダイムに依存していることが多い。
ヒューマンアライメント評価の鍵となる前提条件は役割識別であり、対話の文脈に基づいて誰が話しているかを認識する能力である。
ロールプレイングの質(キャラクタの演奏方法)の有意義な判断は、基本的には、単語や行動が正しいペルソナ(話す人)に最初に正しく帰属することに依存している、と我々は主張する。
本稿では,LLM評価者が人間の役割を確実に特定できるかどうかを検証するための最初のベンチマークである PersonaEval を提案する。
PersonaEvalは、小説、脚本、ビデオの書き起こしから人間によって書かれた対話を使い、会話のコンテキストに応じて正しいペルソナを決定するために挑戦する。
人間の研究を含む我々の実験では、最高の性能のLSMでさえ69%の精度しか達成できないことが示されています。
対照的に、人間の参加者は90.8%の精度で天井付近で行動し、現在のLLM評価者は、ロールプレイシナリオを効果的に判断するのに十分な人間ではないことを強調している。
このギャップをよりよく理解するために、トレーニング時間適応とテスト時間計算を検証し、信頼性の高い評価はタスク固有のチューニング以上のものを必要とするが、LLM評価器の強い人間的な推論能力に依存することを示唆する。
ベンチマークはhttps://github.com/maple-zhou/PersonaEval.comで公開しています。
関連論文リスト
- Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。