論文の概要: Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions?
- arxiv url: http://arxiv.org/abs/2404.12138v2
- Date: Mon, 18 Nov 2024 11:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:36.464155
- Title: Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions?
- Title(参考訳): キャラクタは運命である:ロールプレイング言語エージェントはペルソナ駆動の意思決定ができるか?
- Authors: Rui Xu, Xintao Wang, Jiangjie Chen, Siyu Yuan, Xinfeng Yuan, Jiaqing Liang, Zulong Chen, Xiaoqing Dong, Yanghua Xiao,
- Abstract要約: 我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
- 参考スコア(独自算出の注目度): 59.0123596591807
- License:
- Abstract: Can Large Language Models (LLMs) simulate humans in making important decisions? Recent research has unveiled the potential of using LLMs to develop role-playing language agents (RPLAs), mimicking mainly the knowledge and tones of various characters. However, imitative decision-making necessitates a more nuanced understanding of personas. In this paper, we benchmark the ability of LLMs in persona-driven decision-making. Specifically, we investigate whether LLMs can predict characters' decisions provided by the preceding stories in high-quality novels. Leveraging character analyses written by literary experts, we construct a dataset LIFECHOICE comprising 1,462 characters' decision points from 388 books. Then, we conduct comprehensive experiments on LIFECHOICE, with various LLMs and RPLA methodologies. The results demonstrate that state-of-the-art LLMs exhibit promising capabilities in this task, yet substantial room for improvement remains. Hence, we further propose the CHARMAP method, which adopts persona-based memory retrieval and significantly advances RPLAs on this task, achieving 5.03% increase in accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、重要な決定を下す上で、人間をシミュレートできるだろうか?
近年の研究では、ロールプレイング言語エージェント(RPLA)の開発にLLMを使うことの可能性を明らかにしており、主に様々なキャラクターの知識やトーンを模倣している。
しかし、模倣的な意思決定はペルソナのより微妙な理解を必要とする。
本稿では、ペルソナ駆動意思決定におけるLLMの能力のベンチマークを行う。
具体的には,先行する小説の登場人物の判断をLLMが予測できるかどうかについて検討する。
文芸専門家による文字分析を活用し,388冊から1,462冊の文字の判定点からなるデータセットLIFECHOICEを構築した。
次に, LIFECHOICE に関する総合的な実験を行い, 様々な LLM と RPLA の方法論について検討した。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
そこで我々は,ペルソナに基づくメモリ検索を取り入れたCHARMAP法を提案し,その精度を5.03%向上させる。
関連論文リスト
- Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization [33.513689684998035]
対話文学で最初に採用されたペルソナの概念は、大きな言語モデルを特定の文脈に合わせるための有望な枠組みとして復活してきた。
ギャップを埋めるために、フィールドの現状を分類するための総合的な調査を提示する。
論文 参考訳(メタデータ) (2024-06-03T10:08:23Z) - Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。
本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文 参考訳(メタデータ) (2024-03-31T17:38:33Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。
本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。
TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-19T11:20:37Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。