論文の概要: BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and Persona Reasoning
- arxiv url: http://arxiv.org/abs/2510.23337v1
- Date: Mon, 27 Oct 2025 13:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.562992
- Title: BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and Persona Reasoning
- Title(参考訳): BaZiベースの文字シミュレーションベンチマーク:時間とペルソナ推論におけるAIの評価
- Authors: Siyuan Zheng, Pai Liu, Xi Chen, Jizheng Dong, Sihan Jia,
- Abstract要約: BaZiベースのペルソナ推論のための最初のQAデータセットを作成します。
本研究では,シンボル推論と大規模言語モデルを統合したBaZi-LLMシステムを提案する。
- 参考スコア(独自算出の注目度): 3.3125111019129707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-like virtual characters are crucial for games, storytelling, and virtual reality, yet current methods rely heavily on annotated data or handcrafted persona prompts, making it difficult to scale up and generate realistic, contextually coherent personas. We create the first QA dataset for BaZi-based persona reasoning, where real human experiences categorized into wealth, health, kinship, career, and relationships are represented as life-event questions and answers. Furthermore, we propose the first BaZi-LLM system that integrates symbolic reasoning with large language models to generate temporally dynamic and fine-grained virtual personas. Compared with mainstream LLMs such as DeepSeek-v3 and GPT-5-mini, our method achieves a 30.3%-62.6% accuracy improvement. In addition, when incorrect BaZi information is used, our model's accuracy drops by 20%-45%, showing the potential of culturally grounded symbolic-LLM integration for realistic character simulation.
- Abstract(参考訳): 人間のような仮想キャラクタはゲーム、ストーリーテリング、バーチャルリアリティーには不可欠だが、現在の手法は注釈付きデータや手作りのペルソナプロンプトに大きく依存しているため、現実的でコンテキストに整合したペルソナのスケールアップと生成が困難である。
私たちは、BaZiベースのペルソナ推論のための最初のQAデータセットを作成します。
さらに,大規模な言語モデルとシンボリック推論を統合し,時間的に動的かつ微細な仮想ペルソナを生成するBaZi-LLMシステムを提案する。
DeepSeek-v3 や GPT-5-mini といった主流の LLM と比較して, 精度が 30.3%-62.6% 向上した。
さらに,誤ったBaZi情報を使用すると,モデルの精度が20%~45%低下し,現実的なキャラクタシミュレーションのための文化的なシンボル-LLM統合の可能性を示した。
関連論文リスト
- SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.35333054932747]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。
ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。
我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文 参考訳(メタデータ) (2025-05-12T14:05:17Z) - Human Choice Prediction in Language-based Persuasion Games: Simulation-based Off-Policy Evaluation [20.520648062905433]
我々は,言語に基づく説得ゲームに焦点を合わせ,専門家が言論的なメッセージを通じて意思決定者に影響を与えることを目標としている。
OPEフレームワークでは,1組の専門家エージェントとの遭遇から収集した人間のインタラクションデータに基づいて,予測モデルを訓練する。
専用アプリケーションを用いて,人間による87Kの意思決定データセットを収集した。
論文 参考訳(メタデータ) (2023-05-17T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。