Fugu-MT 論文翻訳(概要): PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models

論文の概要: PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models

arxiv url: http://arxiv.org/abs/2605.17044v1
Date: Sat, 16 May 2026 15:23:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.511834
Title: PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models
Title（参考訳）: PersonaArena:大規模言語モデルにおけるペルソナレベルロールプレイングの評価と強化のための動的シミュレーション
Authors: Wenlong Shi, Jianxun Lian, Mingqi Wu, Haiming Qin, Mingyang Zhou, Xing Xie, Naipeng Chao, Hao Liao,
Abstract要約: PersonaArenaは、大きな言語モデルでペルソナレベルのロールプレイングを評価し改善するための動的シミュレーションフレームワークである。本フレームワークは,総合的および偏見のない評価のためのマルチエージェント議論判断器を特徴とする。
参考スコア（独自算出の注目度）: 36.68996993931248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) increasingly serve as interactive social agents, yet their ability to maintain coherent and authentic persona-level role-playing remains limited, particularly in realistic social scenarios. Existing research predominantly focuses on character-level settings and relies on static evaluation formats, failing to capture the complexity of everyday social interactions. In this work, we present PersonaArena, a dynamic simulation framework for evaluating and improving persona-level role-playing in LLMs. PersonaArena leverages a large, filtered corpus of user-generated social content to construct a nuanced persona bank, and elicits multi-turn, context-rich interactions within simulated social environments. Our framework features a multi-agent debating judge for holistic and unbiased assessment. Through extensive experiments, we demonstrate that PersonaArena enables rigorous evaluation and enhancement of LLMs' role-playing capabilities, advancing the development of more authentic and socially adept AI agents.
Abstract（参考訳）: 大規模言語モデル(LLM)は、対話型ソーシャルエージェントとしての役割をますます高めているが、特に現実的な社会的シナリオにおいて、コヒーレントで真のペルソナレベルのロールプレイングを維持する能力は限られている。既存の研究は主にキャラクターレベルの設定に重点を置いており、静的な評価形式に依存しており、日々の社会的相互作用の複雑さを捉えていない。本稿では,LLMにおけるペルソナレベルのロールプレイングの評価と改善のための動的シミュレーションフレームワークであるPersonaArenaを紹介する。 PersonaArenaは、ユーザ生成のソーシャルコンテンツの大規模なコーパスを活用して、ニュアンスのあるペルソナバンクを構築し、シミュレーションされたソーシャル環境内でのマルチターン、コンテキストリッチなインタラクションを誘発する。本フレームワークは,総合的および偏見のない評価のためのマルチエージェント議論判断器を特徴とする。広範な実験を通じて、PersonaArenaはLLMのロールプレイング能力の厳格な評価と向上を可能にし、より真正で社会的に適応したAIエージェントの開発を促進することを実証した。

論文の概要: PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models

関連論文リスト