論文の概要: Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects
- arxiv url: http://arxiv.org/abs/2603.03915v1
- Date: Wed, 04 Mar 2026 10:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.266352
- Title: Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects
- Title(参考訳): ロールプレイング評価の再考:匿名ベンチマークとパーソナリティ効果の体系的研究
- Authors: Ji-Lun Peng, Yun-Nung Chen,
- Abstract要約: 大規模言語モデル(LLM)はロールプレイングエージェント(RPAs)の開発において大きな可能性を証明している
現在の研究は主に有名な架空のキャラクターを用いてRPAを評価している。
この依存関係は、RPAの一般化を目に見えないペルソナに制限するバイアスを生み出します。
この研究は、より公平な評価プロトコルを確立し、ロバストなRPAを構築するためのスケーラブルでパーソナリティに富んだフレームワークを検証する。
- 参考スコア(独自算出の注目度): 21.364811854827163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated significant potential in developing Role-Playing Agents (RPAs). However, current research primarily evaluates RPAs using famous fictional characters, allowing models to rely on memory associated with character names. This dependency creates a bias that limits the generalization of RPAs to unseen personas. To address this issue, we propose an anonymous evaluation method. Experiments across multiple benchmarks reveal that anonymization significantly degrades role-playing performance, confirming that name exposure carries implicit information. Furthermore, we investigate personality augmentation to enhance role fidelity under anonymous setting. We systematically compare the efficacy of personality traits derived from human annotations versus those self-generated by the model. Our results demonstrate that incorporating personality information consistently improves RPA performance. Crucially, self-generated personalities achieve performance comparable to human-annotated ones. This work establishes a fairer evaluation protocol and validates a scalable, personality-enhanced framework for constructing robust RPAs.
- Abstract(参考訳): 大規模言語モデル (LLM) はロールプレイングエージェント (RPAs) の開発において大きな可能性を証明している。
しかしながら、現在の研究は主に有名な架空の文字を用いてRPAを評価し、モデルが文字名に関連するメモリに依存することを可能にする。
この依存関係は、RPAの一般化を目に見えないペルソナに制限するバイアスを生み出します。
この問題に対処するため,匿名評価手法を提案する。
複数のベンチマークで実験した結果、匿名化はロールプレイングのパフォーマンスを著しく低下させ、名前の露出が暗黙的な情報を持っていることを確認した。
さらに、匿名環境下での役割の忠実度を高めるために、人格向上について検討する。
人間のアノテーションから派生した性格特性の有効性を,モデルによる自己生成特性と体系的に比較した。
以上の結果から,人格情報を組み込むことで,RPAの性能が向上することが示唆された。
重要なことに、自己生成の個性は人間の注釈に匹敵するパフォーマンスを達成する。
この研究は、より公平な評価プロトコルを確立し、ロバストなRPAを構築するためのスケーラブルでパーソナリティに富んだフレームワークを検証する。
関連論文リスト
- Fame Fades, Nature Remains: Disentangling the Character Identity of Role-Playing Agents [13.029517493304505]
本研究では,文字を2つの異なる層に分割する多次元的構成法を提案する。textbf(1) パラメトリック・アイデンティティは,LLMの事前学習から符号化された文字固有の知識を指し,textbf(2) 属性の属性や道徳的価値などの微粒な行動特性を捉える。
以上の結果から,RPAの忠実度の主要なボトルネックとして否定的な社会的特性が指摘され,今後の性格構築と評価を導いた。
論文 参考訳(メタデータ) (2026-01-08T08:33:40Z) - Dynamic Context Adaptation for Consistent Role-Playing Agents with Retrieval-Augmented Generations [1.1740676332544449]
ロールプレイングエージェント(RPAs)のためのトレーニングフリーフレームワークであるAmadeusを提案する。
アマデウスフレームワークは、キャラクタの知識を超えた質問に応答しても、ペルソナの一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2025-08-04T03:27:05Z) - Thinking in Character: Advancing Role-Playing Agents with Role-Aware Reasoning [46.47940531288568]
本稿では,RAR(Role Identity Activation)とRSO(Reasoning Style Optimization)の2つの重要な段階からなる新しいRole-Aware Reasoning(RAR)手法を提案する。
RIAは、アテンションディバージョンに対抗するために推論中にキャラクタープロファイルでモデルを明示的にガイドし、RSOは、LEM蒸留によるキャラクターとシーンの推論スタイルを調整し、スタイルのドリフトを緩和する。
論文 参考訳(メタデータ) (2025-06-02T14:55:04Z) - Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data [58.92110996840019]
本稿では、パーソナリティを指標としたデータを用いて、ロールプレイング言語モデル(RPLM)を強化することを提案する。
具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。
実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。
論文 参考訳(メタデータ) (2024-06-27T06:24:00Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews [57.04431594769461]
本稿では, RPAの性格的忠実度を心理的尺度で評価するための新しい視点を紹介する。
実験には様々な種類の RPA と LLM が含まれ、14の広く使用されている心理学的尺度で32の異なる文字をカバーしている。
InCharacterでは、現在最先端のRPAが人物の人格と高度に一致した個性を示し、80.7%の精度を達成している。
論文 参考訳(メタデータ) (2023-10-27T08:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。