論文の概要: PersonaGym: Evaluating Persona Agents and LLMs
- arxiv url: http://arxiv.org/abs/2407.18416v4
- Date: Mon, 19 May 2025 23:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.235932
- Title: PersonaGym: Evaluating Persona Agents and LLMs
- Title(参考訳): PersonaGym: ペルソナエージェントとLLMの評価
- Authors: Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari,
- Abstract要約: 本稿では、ペルソナエージェントのための最初の動的評価フレームワークであるPersonaGymと、意思決定理論に基づく人手による自動計量であるPersonaScoreを紹介する。
200人1万質問10件のLLMを評価した結果,有意義な進歩の可能性が示唆された。
- 参考スコア(独自算出の注目度): 47.75926334294358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Persona agents, which are LLM agents conditioned to act according to an assigned persona, enable contextually rich and user aligned interactions across domains like education and healthcare. However, evaluating how faithfully these agents adhere to their personas remains a significant challenge, particularly in free-form settings that demand consistency across diverse, persona-relevant environments. We introduce PersonaGym, the first dynamic evaluation framework for persona agents, and PersonaScore, a human-aligned automatic metric grounded in decision theory that enables comprehensive large-scale evaluation. Our evaluation of 10 leading LLMs across 200 personas and 10,000 questions reveals significant advancement opportunities. For example, GPT-4.1 had the exact same PersonaScore as LLaMA-3-8b despite being a more recent and advanced closed source model. Importantly, increased model size and complexity do not necessarily enhance persona agent capabilities, underscoring the need for algorithmic and architectural innovation toward faithful, performant persona agents.
- Abstract(参考訳): ペルソナエージェントは、割り当てられたペルソナに従って行動するよう条件付けされたLLMエージェントであり、教育や医療といった領域間でコンテキスト的にリッチでユーザ整合したインタラクションを可能にする。
しかしながら、これらのエージェントがペルソナにいかに忠実に従属するかを評価することは、特に多様なペルソナ関連環境にまたがって一貫性を求める自由形式の環境では、依然として重要な課題である。
本稿では,ペルソナエージェントの最初の動的評価フレームワークであるPersonaGymと,包括的大規模評価を可能にする意思決定理論に基づく人手による自動計量であるPersonaScoreを紹介する。
200人1万質問10件のLLMを評価した結果,有意義な進歩の可能性が示唆された。
例えば、GPT-4.1はLLaMA-3-8bと全く同じペルソナスコアを持つが、より最新で高度なクローズドソースモデルである。
重要なことは、モデルのサイズと複雑さの増大は、必ずしもペルソナエージェントの能力を高めるものではなく、忠実でパフォーマンスの高いペルソナエージェントへのアルゴリズム的およびアーキテクチャ的革新の必要性を強調している。
関連論文リスト
- PAARS: Persona Aligned Agentic Retail Shoppers [2.8737584376365355]
電子商取引では、行動データは意思決定のために収集される。
匿名化された履歴ショッピングデータを自動マイニングすることで、合成ショッピングエージェントを作成するフレームワークを提案する。
本稿では,自動エージェントA/Bテストのためのフレームワークの初期応用について紹介し,その結果と人的結果を比較した。
論文 参考訳(メタデータ) (2025-03-31T15:41:51Z) - Designing LLM-Agents with Personalities: A Psychometric Approach [0.47498241053872914]
本研究は, 定量的, 制御可能, 心理的に検証された個人性をエージェントに割り当てる新しい手法を提案する。
人体研究の制約を克服し、エージェントを社会科学調査のためのアクセス可能なツールとして提案する。
論文 参考訳(メタデータ) (2024-10-25T01:05:04Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Human Choice Prediction in Language-based Persuasion Games:
Simulation-based Off-Policy Evaluation [24.05034588588407]
本稿では,このようなエージェントの設計における重要な側面について論じる。
人工エージェントを用いた意思決定ゲームを繰り返し行う人間による87Kの意思決定データセットを収集した。
我々のアプローチでは、あるエージェントサブセットと人間のインタラクションに関するモデルをトレーニングして、他のエージェントとのインタラクションにおける決定を予測します。
論文 参考訳(メタデータ) (2023-05-17T16:38:11Z) - Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。
提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-23T09:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。