論文の概要: CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
- arxiv url: http://arxiv.org/abs/2502.09082v1
- Date: Thu, 13 Feb 2025 08:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:28.739104
- Title: CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
- Title(参考訳): CoSER: 確立された役割のLLMに基づくペルソナシミュレーションのコーディネート
- Authors: Xintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou,
- Abstract要約: CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
- 参考スコア(独自算出の注目度): 62.886267684392635
- License:
- Abstract: Role-playing language agents (RPLAs) have emerged as promising applications of large language models (LLMs). However, simulating established characters presents a challenging task for RPLAs, due to the lack of authentic character datasets and nuanced evaluation methods using such data. In this paper, we present CoSER, a collection of a high-quality dataset, open models, and an evaluation protocol towards effective RPLAs of established characters. The CoSER dataset covers 17,966 characters from 771 renowned books. It provides authentic dialogues with real-world intricacies, as well as diverse data types such as conversation setups, character experiences and internal thoughts. Drawing from acting methodology, we introduce given-circumstance acting for training and evaluating role-playing LLMs, where LLMs sequentially portray multiple characters in book scenes. Using our dataset, we develop CoSER 8B and CoSER 70B, i.e., advanced open role-playing LLMs built on LLaMA-3.1 models. Extensive experiments demonstrate the value of the CoSER dataset for RPLA training, evaluation and retrieval. Moreover, CoSER 70B exhibits state-of-the-art performance surpassing or matching GPT-4o on our evaluation and three existing benchmarks, i.e., achieving 75.80% and 93.47% accuracy on the InCharacter and LifeChoice benchmarks respectively.
- Abstract(参考訳): ロールプレイング言語エージェント(RPLA)は,大規模言語モデル(LLM)の有望な応用として登場した。
しかし、確立された文字のシミュレーションは、文字データセットの欠如や、そのようなデータを用いたニュアンス評価手法の欠如により、RPLAにとって難しい課題となる。
本稿では,高品質なデータセット,オープンモデル,確立した文字の効果的なRPLAに対する評価プロトコルであるCoSERを提案する。
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
現実世界の複雑な会話や、会話のセットアップ、キャラクター体験、内的思考などの多様なデータタイプを提供する。
演技手法を参考に,書籍シーンの複数のキャラクターを逐次的に描写するロールプレイング LLM の訓練と評価を行うための実環境演技を紹介した。
我々のデータセットを用いて、LLaMA-3.1モデル上に構築された高度なオープンロールプレイングLLMであるCoSER 8BとCoSER 70Bを開発した。
大規模な実験は、RPLAトレーニング、評価、検索のためのCoSERデータセットの価値を実証する。
さらに、CoSER 70BはGPT-4oを上回り、既存の3つのベンチマーク、すなわちInCharacterベンチマークとLifeChoiceベンチマークでそれぞれ75.80%と93.47%の精度を達成している。
関連論文リスト
- Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - Rate, Explain and Cite (REC): Enhanced Explanation and Attribution in Automatic Evaluation by Large Language Models [14.366425348130289]
本稿では,REC-8B,REC-12B,REC-70Bの3種類の汎用LDM自動評価器を紹介する。
それらは、忠実性、指示従順性、一貫性、完全性など、様々な次元で生成されたテキストを評価するように設計されている。
我々の汎用LCM自動評価装置REC-70Bは、より優れた品質説明と最小バイアスによる引用を提供することで、コンテンツ評価に優れ、最先端LCMよりも優れています。
論文 参考訳(メタデータ) (2024-11-03T02:36:33Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent
Evaluation [20.31635307504041]
総合的なRPCA評価のための中国のベンチマークである characterEval を紹介する。
データセットは1,785のマルチターンロールプレイング対話で構成され、23,020のサンプルと77の文字を含む。
CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
論文 参考訳(メタデータ) (2024-01-02T16:20:40Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。