論文の概要: CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
- arxiv url: http://arxiv.org/abs/2502.09082v1
- Date: Thu, 13 Feb 2025 08:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:28.739104
- Title: CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
- Title(参考訳): CoSER: 確立された役割のLLMに基づくペルソナシミュレーションのコーディネート
- Authors: Xintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou,
- Abstract要約: CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
- 参考スコア(独自算出の注目度): 62.886267684392635
- License:
- Abstract: Role-playing language agents (RPLAs) have emerged as promising applications of large language models (LLMs). However, simulating established characters presents a challenging task for RPLAs, due to the lack of authentic character datasets and nuanced evaluation methods using such data. In this paper, we present CoSER, a collection of a high-quality dataset, open models, and an evaluation protocol towards effective RPLAs of established characters. The CoSER dataset covers 17,966 characters from 771 renowned books. It provides authentic dialogues with real-world intricacies, as well as diverse data types such as conversation setups, character experiences and internal thoughts. Drawing from acting methodology, we introduce given-circumstance acting for training and evaluating role-playing LLMs, where LLMs sequentially portray multiple characters in book scenes. Using our dataset, we develop CoSER 8B and CoSER 70B, i.e., advanced open role-playing LLMs built on LLaMA-3.1 models. Extensive experiments demonstrate the value of the CoSER dataset for RPLA training, evaluation and retrieval. Moreover, CoSER 70B exhibits state-of-the-art performance surpassing or matching GPT-4o on our evaluation and three existing benchmarks, i.e., achieving 75.80% and 93.47% accuracy on the InCharacter and LifeChoice benchmarks respectively.
- Abstract(参考訳): ロールプレイング言語エージェント(RPLA)は,大規模言語モデル(LLM)の有望な応用として登場した。
しかし、確立された文字のシミュレーションは、文字データセットの欠如や、そのようなデータを用いたニュアンス評価手法の欠如により、RPLAにとって難しい課題となる。
本稿では,高品質なデータセット,オープンモデル,確立した文字の効果的なRPLAに対する評価プロトコルであるCoSERを提案する。
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
現実世界の複雑な会話や、会話のセットアップ、キャラクター体験、内的思考などの多様なデータタイプを提供する。
演技手法を参考に,書籍シーンの複数のキャラクターを逐次的に描写するロールプレイング LLM の訓練と評価を行うための実環境演技を紹介した。
我々のデータセットを用いて、LLaMA-3.1モデル上に構築された高度なオープンロールプレイングLLMであるCoSER 8BとCoSER 70Bを開発した。
大規模な実験は、RPLAトレーニング、評価、検索のためのCoSERデータセットの価値を実証する。
さらに、CoSER 70BはGPT-4oを上回り、既存の3つのベンチマーク、すなわちInCharacterベンチマークとLifeChoiceベンチマークでそれぞれ75.80%と93.47%の精度を達成している。
関連論文リスト
- SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent
Evaluation [20.31635307504041]
総合的なRPCA評価のための中国のベンチマークである characterEval を紹介する。
データセットは1,785のマルチターンロールプレイング対話で構成され、23,020のサンプルと77の文字を含む。
CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
論文 参考訳(メタデータ) (2024-01-02T16:20:40Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。