論文の概要: PersonaGym: Evaluating Persona Agents and LLMs
- arxiv url: http://arxiv.org/abs/2407.18416v2
- Date: Mon, 29 Jul 2024 02:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:35:35.333044
- Title: PersonaGym: Evaluating Persona Agents and LLMs
- Title(参考訳): PersonaGym: ペルソナエージェントとLLMの評価
- Authors: Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari,
- Abstract要約: 我々は、ペルソナエージェントを評価するための最初の動的評価フレームワークであるPersonaGymと、意思決定理論に基礎を置く最初の自動化ヒトアライメントメトリックであるPersonaScoreを紹介する。
200のペルソナと10,000の質問を含むベンチマークを用いて、6つのオープンでクローズドなLCMの評価を行ったところ、ペルソナエージェントの能力向上の可能性が示唆された。
- 参考スコア(独自算出の注目度): 47.75926334294358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Persona agents, which are LLM agents that act according to an assigned persona, have demonstrated impressive contextual response capabilities across various applications. These persona agents offer significant enhancements across diverse sectors, such as education, healthcare, and entertainment, where model developers can align agent responses to different user requirements thereby broadening the scope of agent applications. However, evaluating persona agent performance is incredibly challenging due to the complexity of assessing persona adherence in free-form interactions across various environments that are relevant to each persona agent. We introduce PersonaGym, the first dynamic evaluation framework for assessing persona agents, and PersonaScore, the first automated human-aligned metric grounded in decision theory for comprehensive large-scale evaluation of persona agents. Our evaluation of 6 open and closed-source LLMs, using a benchmark encompassing 200 personas and 10,000 questions, reveals significant opportunities for advancement in persona agent capabilities across state-of-the-art models. For example, Claude 3.5 Sonnet only has a 2.97% relative improvement in PersonaScore than GPT 3.5 despite being a much more advanced model. Importantly, we find that increased model size and complexity do not necessarily imply enhanced persona agent capabilities thereby highlighting the pressing need for algorithmic and architectural invention towards faithful and performant persona agents.
- Abstract(参考訳): 与えられたペルソナに従って行動するLLMエージェントであるペルソナエージェントは、様々なアプリケーションにまたがる印象的な文脈応答能力を実証している。
これらのペルソナエージェントは、教育、医療、エンターテイメントといった多様な分野にまたがって大幅に拡張され、モデル開発者はエージェントの応答を異なるユーザー要求に合わせることができ、エージェントアプリケーションの範囲を広げることができる。
しかし,各ペルソナエージェントに関連する様々な環境におけるフリーフォームインタラクションにおけるペルソナ付着性の評価が複雑化しているため,ペルソナエージェントの性能評価は極めて困難である。
本稿では,ペルソナエージェントを評価するための第1の動的評価フレームワークであるPersonaGymと,ペルソナエージェントの大規模評価を総合的に行うための意思決定理論を基盤とした最初の自動ヒトアライメント尺度であるPersonaScoreを紹介する。
200のペルソナと10,000の質問を含むベンチマークを用いて、6つのオープンでクローズドなLCMの評価を行い、現状のモデルにまたがるペルソナエージェントの能力向上の可能性を明らかにした。
例えば、Claude 3.5 Sonnet は GPT 3.5 よりも2.97%しか改善していないが、より高度なモデルである。
重要なことは、モデルサイズと複雑さの増加が必ずしもペルソナエージェントの能力の向上を示唆するものではないことであり、それによってアルゴリズム的かつアーキテクチャ的発明が忠実でパフォーマンスの高いペルソナエージェントに迫る必要性が強調される。
関連論文リスト
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - RoleInteract: Evaluating the Social Interaction of Role-Playing Agents [85.6641890712617]
社会的相互作用の個人レベルとグループレベルの両方において、ロールプレイング・会話エージェントの社会的性を評価するために設計された最初のベンチマークを紹介する。
ベンチマークはさまざまなソースから構築され、500文字以上と6000以上の質問プロンプトをカバーする。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Human Choice Prediction in Language-based Persuasion Games:
Simulation-based Off-Policy Evaluation [24.05034588588407]
本稿では,このようなエージェントの設計における重要な側面について論じる。
人工エージェントを用いた意思決定ゲームを繰り返し行う人間による87Kの意思決定データセットを収集した。
我々のアプローチでは、あるエージェントサブセットと人間のインタラクションに関するモデルをトレーニングして、他のエージェントとのインタラクションにおける決定を予測します。
論文 参考訳(メタデータ) (2023-05-17T16:38:11Z) - Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。
提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-23T09:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。