論文の概要: Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions?
- arxiv url: http://arxiv.org/abs/2404.12138v2
- Date: Mon, 18 Nov 2024 11:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:36.464155
- Title: Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions?
- Title(参考訳): キャラクタは運命である:ロールプレイング言語エージェントはペルソナ駆動の意思決定ができるか?
- Authors: Rui Xu, Xintao Wang, Jiangjie Chen, Siyu Yuan, Xinfeng Yuan, Jiaqing Liang, Zulong Chen, Xiaoqing Dong, Yanghua Xiao,
- Abstract要約: 我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
- 参考スコア(独自算出の注目度): 59.0123596591807
- License:
- Abstract: Can Large Language Models (LLMs) simulate humans in making important decisions? Recent research has unveiled the potential of using LLMs to develop role-playing language agents (RPLAs), mimicking mainly the knowledge and tones of various characters. However, imitative decision-making necessitates a more nuanced understanding of personas. In this paper, we benchmark the ability of LLMs in persona-driven decision-making. Specifically, we investigate whether LLMs can predict characters' decisions provided by the preceding stories in high-quality novels. Leveraging character analyses written by literary experts, we construct a dataset LIFECHOICE comprising 1,462 characters' decision points from 388 books. Then, we conduct comprehensive experiments on LIFECHOICE, with various LLMs and RPLA methodologies. The results demonstrate that state-of-the-art LLMs exhibit promising capabilities in this task, yet substantial room for improvement remains. Hence, we further propose the CHARMAP method, which adopts persona-based memory retrieval and significantly advances RPLAs on this task, achieving 5.03% increase in accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、重要な決定を下す上で、人間をシミュレートできるだろうか?
近年の研究では、ロールプレイング言語エージェント(RPLA)の開発にLLMを使うことの可能性を明らかにしており、主に様々なキャラクターの知識やトーンを模倣している。
しかし、模倣的な意思決定はペルソナのより微妙な理解を必要とする。
本稿では、ペルソナ駆動意思決定におけるLLMの能力のベンチマークを行う。
具体的には,先行する小説の登場人物の判断をLLMが予測できるかどうかについて検討する。
文芸専門家による文字分析を活用し,388冊から1,462冊の文字の判定点からなるデータセットLIFECHOICEを構築した。
次に, LIFECHOICE に関する総合的な実験を行い, 様々な LLM と RPLA の方法論について検討した。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
そこで我々は,ペルソナに基づくメモリ検索を取り入れたCHARMAP法を提案し,その精度を5.03%向上させる。
関連論文リスト
- Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。
ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Exploring the Sensitivity of LLMs' Decision-Making Capabilities:
Insights from Prompt Variation and Hyperparameters [6.00842499449049]
本研究では,大言語モデルがプロンプトやハイパーパラメータの変動にどう反応するかを検討する。
異なる能力を持つ3つのOpenAI言語モデルで実験することにより、入力プロンプトと温度設定に基づいて意思決定能力が変動することを確認する。
以前の発見言語モデルとは対照的に、プロンプトへの簡単な調整の後、人間のような探索的エクスプロイトのトレードオフを表示する。
論文 参考訳(メタデータ) (2023-12-29T05:19:11Z) - Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。
本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。
TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-19T11:20:37Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。