論文の概要: Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing?
- arxiv url: http://arxiv.org/abs/2404.12138v1
- Date: Thu, 18 Apr 2024 12:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:31:46.730823
- Title: Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing?
- Title(参考訳): キャラクタは運命である: 大規模言語モデルはロールプレイングにおけるペルソナ駆動決定をシミュレートできるか?
- Authors: Rui Xu, Xintao Wang, Jiangjie Chen, Siyu Yuan, Xinfeng Yuan, Jiaqing Liang, Zulong Chen, Xiaoqing Dong, Yanghua Xiao,
- Abstract要約: ペルソナ駆動意思決定における大規模言語モデルの能力のベンチマークを行う。
高品質な小説において, LLM が先行する物語の登場人物の判断を予測できるかどうかを考察する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は十分にあることが示された。
- 参考スコア(独自算出の注目度): 59.0123596591807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can Large Language Models substitute humans in making important decisions? Recent research has unveiled the potential of LLMs to role-play assigned personas, mimicking their knowledge and linguistic habits. However, imitative decision-making requires a more nuanced understanding of personas. In this paper, we benchmark the ability of LLMs in persona-driven decision-making. Specifically, we investigate whether LLMs can predict characters' decisions provided with the preceding stories in high-quality novels. Leveraging character analyses written by literary experts, we construct a dataset LIFECHOICE comprising 1,401 character decision points from 395 books. Then, we conduct comprehensive experiments on LIFECHOICE, with various LLMs and methods for LLM role-playing. The results demonstrate that state-of-the-art LLMs exhibit promising capabilities in this task, yet there is substantial room for improvement. Hence, we further propose the CHARMAP method, which achieves a 6.01% increase in accuracy via persona-based memory retrieval. We will make our datasets and code publicly available.
- Abstract(参考訳): 大規模言語モデルは人間に代えて重要な決定を下せるか?
近年の研究では、LLMが役割に割り当てられたペルソナを演じる可能性を明らかにしており、その知識や言語的習慣を模倣している。
しかし、模倣的な意思決定には、ペルソナをより微妙に理解する必要がある。
本稿では、ペルソナ駆動意思決定におけるLLMの能力のベンチマークを行う。
具体的には,高品質な小説において,先行する物語の登場人物の判断をLLMが予測できるかどうかを検討する。
文芸専門家による文字分析を活用し、395冊の本から1,401冊の文字決定点からなるデータセットLIFECHOICEを構築した。
次に, LIFECHOICE に関する総合的な実験を行い, 様々な LLM と LLM ロールプレイングの手法について述べる。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は十分にあることが示された。
そこで我々は,ペルソナによるメモリ検索により精度を6.01%向上させるCHARMAP法を提案する。
データセットとコードを公開します。
関連論文リスト
- Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。
ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Exploring the Sensitivity of LLMs' Decision-Making Capabilities:
Insights from Prompt Variation and Hyperparameters [6.00842499449049]
本研究では,大言語モデルがプロンプトやハイパーパラメータの変動にどう反応するかを検討する。
異なる能力を持つ3つのOpenAI言語モデルで実験することにより、入力プロンプトと温度設定に基づいて意思決定能力が変動することを確認する。
以前の発見言語モデルとは対照的に、プロンプトへの簡単な調整の後、人間のような探索的エクスプロイトのトレードオフを表示する。
論文 参考訳(メタデータ) (2023-12-29T05:19:11Z) - Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。
本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。
TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-19T11:20:37Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。