論文の概要: Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2502.13012v2
- Date: Sat, 15 Mar 2025 17:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:09.428967
- Title: Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents
- Title(参考訳): RPA評価のための設計ガイドラインに向けて:大規模言語モデルに基づくロールプレイングエージェントの検討
- Authors: Chaoran Chen, Bingsheng Yao, Ruishi Zou, Wenyue Hua, Weimin Lyu, Yanfang Ye, Toby Jia-Jun Li, Dakuo Wang,
- Abstract要約: ロールプレイングエージェント(Role-Playing Agent、RPA)は、様々なタスクにおいて人間のような振る舞いをシミュレートするLLMエージェントの一種である。
RPAの評価は多様なタスク要件とエージェント設計のために難しい。
本稿では, LLM に基づく RPA のためのエビデンスベース, 動作可能, 汎用的な評価設計ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 40.231008385126934
- License:
- Abstract: Role-Playing Agent (RPA) is an increasingly popular type of LLM Agent that simulates human-like behaviors in a variety of tasks. However, evaluating RPAs is challenging due to diverse task requirements and agent designs. This paper proposes an evidence-based, actionable, and generalizable evaluation design guideline for LLM-based RPA by systematically reviewing 1,676 papers published between Jan. 2021 and Dec. 2024. Our analysis identifies six agent attributes, seven task attributes, and seven evaluation metrics from existing literature. Based on these findings, we present an RPA evaluation design guideline to help researchers develop more systematic and consistent evaluation methods.
- Abstract(参考訳): ロールプレイングエージェント(Role-Playing Agent、RPA)は、様々なタスクにおいて人間のような振る舞いをシミュレートするLLMエージェントの一種である。
しかし、多様なタスク要求とエージェント設計のため、RPAを評価することは困難である。
本稿では,2021年1月から2024年12月までに刊行された1,676件の論文を体系的にレビューし,LCMに基づくRPAのエビデンスに基づく,行動可能かつ汎用的な評価設計ガイドラインを提案する。
本分析では,既存の文献から,エージェント属性6つ,タスク属性7つ,評価指標7つを抽出した。
これらの知見に基づき,より体系的で一貫した評価手法の開発を支援するための RPA 評価設計ガイドラインを提案する。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。
フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。
エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-16T09:41:12Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Auditing the Use of Language Models to Guide Hiring Decisions [2.949890760187898]
アルゴリズムバイアスから保護するための規制努力は、大規模言語モデルで急速に進歩した緊急性を高めている。
現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。
本稿では,監査アルゴリズムの1つのアプローチとして,対応実験を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:01:26Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。