論文の概要: CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds
- arxiv url: http://arxiv.org/abs/2412.05631v1
- Date: Sat, 07 Dec 2024 12:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:22.990745
- Title: CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds
- Title(参考訳): CharacterBox: テキストベースの仮想世界におけるLLMのロールプレイング能力の評価
- Authors: Lei Wang, Jianxun Lian, Yi Huang, Yanqi Dai, Haoxuan Li, Xu Chen, Xing Xie, Ji-Rong Wen,
- Abstract要約: ロールプレイングは大規模言語モデル(LLM)の重要な機能である
現在の評価手法は, 実演に不可欠なニュアンス特性や動作を適切に把握するに足りていない。
本研究では,キャラクタボックスを提案する。キャラクタボックスは,キャラクタの微粒な挙動を再現するシミュレーションサンドボックスである。
- 参考スコア(独自算出の注目度): 74.02480671181685
- License:
- Abstract: Role-playing is a crucial capability of Large Language Models (LLMs), enabling a wide range of practical applications, including intelligent non-player characters, digital twins, and emotional companions. Evaluating this capability in LLMs is challenging due to the complex dynamics involved in role-playing, such as maintaining character fidelity throughout a storyline and navigating open-ended narratives without a definitive ground truth. Current evaluation methods, which primarily focus on question-answering or conversational snapshots, fall short of adequately capturing the nuanced character traits and behaviors essential for authentic role-playing. In this paper, we propose CharacterBox, which is a simulation sandbox designed to generate situational fine-grained character behavior trajectories. These behavior trajectories enable a more comprehensive and in-depth evaluation of role-playing capabilities. CharacterBox consists of two main components: the character agent and the narrator agent. The character agent, grounded in psychological and behavioral science, exhibits human-like behaviors, while the narrator agent coordinates interactions between character agents and environmental changes. Additionally, we introduce two trajectory-based methods that leverage CharacterBox to enhance LLM performance. To reduce costs and facilitate the adoption of CharacterBox by public communities, we fine-tune two smaller models, CharacterNR and CharacterRM, as substitutes for GPT API calls, and demonstrate their competitive performance compared to advanced GPT APIs.
- Abstract(参考訳): ロールプレイングはLarge Language Models (LLM) の重要な機能であり、インテリジェントな非プレイヤーキャラクター、デジタルツイン、感情的な仲間を含む幅広い実践的応用を可能にする。
LLMにおけるこの能力を評価することは、ストーリーライン全体を通してキャラクターの忠実さを維持したり、決定的な根拠のないオープンエンドな物語をナビゲートするといった、ロールプレイングに関わる複雑なダイナミクスのために難しい。
質問応答や会話のスナップショットに主眼を置いている現在の評価手法では、真のロールプレイングに必要なニュアンスの特徴や振る舞いを適切に把握することができない。
本稿では,キャラクタボックスを提案する。キャラクタボックスは,状況に応じて微粒なキャラクタ挙動の軌跡を生成するためのシミュレーションサンドボックスである。
これらの行動軌跡は、より包括的で詳細なロールプレイング能力の評価を可能にする。
characterBoxは、キャラクタエージェントとナレーターエージェントの2つの主要コンポーネントで構成されている。
心理的および行動科学に基礎を置いているキャラクターエージェントは人間のような行動を示し、ナレーターエージェントはキャラクターエージェント間の相互作用と環境変化を協調する。
また,キャラクタボックスを利用してLLM性能を向上させる2つのトラジェクタベースの手法を提案する。
GPT API呼び出しの代用として、コスト削減と、パブリックコミュニティによる characterBox の採用を促進するため、2つの小さなモデルである CharacterNR と CharacterRM を微調整し、高度な GPT API と比較して、それらの競合性能を実証した。
関連論文リスト
- CharacterBench: Benchmarking Character Customization of Large Language Models [80.29164862682063]
我々は,最大2言語生成ベンチマークである characterBench を提案し,3,956 文字を含む22,859 人の注釈付きサンプルを作成した。
我々は,各応答に現れる特定の次元によって評価される特徴量に基づいて,スパース次元と密度次元に分類される6つの側面の11次元を定義する。
また,コスト効率と安定した評価のためのキャラクタジャッジモデルも開発している。
論文 参考訳(メタデータ) (2024-12-16T15:55:34Z) - What if Red Can Talk? Dynamic Dialogue Generation Using Large Language Models [0.0]
本稿では,大規模言語モデル(LLM)を用いて動的かつ文脈的に適切な文字相互作用を生成する対話フィラーフレームワークを提案する。
The Final Fantasy VII Remake and Pokemonの環境でこのフレームワークをテストする。
本研究の目的は,よりニュアンスの高いフィラーダイアログ作成を支援することであり,それによってプレイヤーの没入感を高め,RPG体験の全般的向上を図ることである。
論文 参考訳(メタデータ) (2024-07-29T19:12:18Z) - Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data [58.92110996840019]
本稿では、パーソナリティを指標としたデータを用いて、ロールプレイング言語モデル(RPLM)を強化することを提案する。
具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。
実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。
論文 参考訳(メタデータ) (2024-06-27T06:24:00Z) - Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework [29.166067413153353]
大きな言語モデル(LLM)は、命令を理解し、人間に似たテキストを生成する素晴らしい能力を示す。
実世界のキャラクターをシミュレートするためにLLMを利用するCustomisable Conversation Agent Frameworkを導入する。
我々は,様々な現実的な設定を取り入れた自由にカスタマイズ可能なロールプレイングエージェントであるSimsChatを紹介する。
論文 参考訳(メタデータ) (2024-06-25T22:44:17Z) - CharacterGPT: A Persona Reconstruction Framework for Role-Playing Agents [6.220415006158471]
アシスタントAPIは、情報抽出部が毎回異なるため、検索でしばしば達成できない。
Assistants APIへの入力としてペルソナドキュメントを使用することで、一貫性のあるペルソナを維持するのは難しい。
CharacterGPTは、Assistants APIの欠点を軽減する新しいペルソナ再構築フレームワークである。
論文 参考訳(メタデータ) (2024-05-30T07:44:16Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language Models [6.753588449962107]
RoleCraft-GLMは、大規模言語モデル(LLM)によるパーソナライズされたロールプレイングの強化を目的とした革新的なフレームワークである。
従来の有名人中心のキャラクターから多彩な非有名人ペルソナへとシフトする、ユニークな会話データセットをコントリビュートする。
私たちのアプローチには、細心の注意深いキャラクタ開発、対話が現実的かつ感情的に共鳴することを保証することが含まれる。
論文 参考訳(メタデータ) (2023-12-17T17:57:50Z) - CharacterGLM: Customizing Chinese Conversational AI Characters with
Large Language Models [66.4382820107453]
本稿では,ChatGLM上に構築されたモデルである characterGLM について紹介する。
我々のキャラクタGLMは文字ベースの対話(CharacterDial)を生成するために設計されており、人間固有の社会的欲求と感情的欲求を満たすための文字カスタマイズを備えた対話型AIシステムを実現することを目的としている。
論文 参考訳(メタデータ) (2023-11-28T14:49:23Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。
ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文 参考訳(メタデータ) (2023-10-02T13:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。