論文の概要: PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.17044v1
- Date: Sat, 16 May 2026 15:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.511834
- Title: PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models
- Title(参考訳): PersonaArena:大規模言語モデルにおけるペルソナレベルロールプレイングの評価と強化のための動的シミュレーション
- Authors: Wenlong Shi, Jianxun Lian, Mingqi Wu, Haiming Qin, Mingyang Zhou, Xing Xie, Naipeng Chao, Hao Liao,
- Abstract要約: PersonaArenaは、大きな言語モデルでペルソナレベルのロールプレイングを評価し改善するための動的シミュレーションフレームワークである。
本フレームワークは,総合的および偏見のない評価のためのマルチエージェント議論判断器を特徴とする。
- 参考スコア(独自算出の注目度): 36.68996993931248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly serve as interactive social agents, yet their ability to maintain coherent and authentic persona-level role-playing remains limited, particularly in realistic social scenarios. Existing research predominantly focuses on character-level settings and relies on static evaluation formats, failing to capture the complexity of everyday social interactions. In this work, we present PersonaArena, a dynamic simulation framework for evaluating and improving persona-level role-playing in LLMs. PersonaArena leverages a large, filtered corpus of user-generated social content to construct a nuanced persona bank, and elicits multi-turn, context-rich interactions within simulated social environments. Our framework features a multi-agent debating judge for holistic and unbiased assessment. Through extensive experiments, we demonstrate that PersonaArena enables rigorous evaluation and enhancement of LLMs' role-playing capabilities, advancing the development of more authentic and socially adept AI agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話型ソーシャルエージェントとしての役割をますます高めているが、特に現実的な社会的シナリオにおいて、コヒーレントで真のペルソナレベルのロールプレイングを維持する能力は限られている。
既存の研究は主にキャラクターレベルの設定に重点を置いており、静的な評価形式に依存しており、日々の社会的相互作用の複雑さを捉えていない。
本稿では,LLMにおけるペルソナレベルのロールプレイングの評価と改善のための動的シミュレーションフレームワークであるPersonaArenaを紹介する。
PersonaArenaは、ユーザ生成のソーシャルコンテンツの大規模なコーパスを活用して、ニュアンスのあるペルソナバンクを構築し、シミュレーションされたソーシャル環境内でのマルチターン、コンテキストリッチなインタラクションを誘発する。
本フレームワークは,総合的および偏見のない評価のためのマルチエージェント議論判断器を特徴とする。
広範な実験を通じて、PersonaArenaはLLMのロールプレイング能力の厳格な評価と向上を可能にし、より真正で社会的に適応したAIエージェントの開発を促進することを実証した。
関連論文リスト
- Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents [13.003892350610947]
社会学研究におけるロールプレイング言語エージェントの有用性は,大規模言語モデルの導入とともに増大している。
社会シミュレーションにおけるリアリズムにおいては、ロールプレイング言語エージェントは、キャラクタープロファイルによって定義されたペルソナに従わなければならない。
本稿では,文脈に依存したペルソナの重要度を動的に推定し,重み付けされた報酬誘導復号に組み込む新しい理論駆動手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T04:37:16Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - PersonaFuse: A Personality Activation-Driven Framework for Enhancing Human-LLM Interactions [14.497181581363288]
PersonaFuseは、大規模言語モデルが異なるパーソナリティを適応し表現できるようにする新しいフレームワークである。
テストでは、PersonaFuseは、社会的感情知性の多次元にわたるベースラインモデルを大幅に上回っている。
PersonaFuseは、下流の人間中心のアプリケーションでも一貫した改善を提供する。
論文 参考訳(メタデータ) (2025-09-09T03:39:28Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。