論文の概要: TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation
- arxiv url: http://arxiv.org/abs/2510.25536v1
- Date: Wed, 29 Oct 2025 14:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.690041
- Title: TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation
- Title(参考訳): TwinVoice: LLMペルソナシミュレーションによるディジタルツインズに向けた多次元ベンチマーク
- Authors: Bangde Du, Minghao Guo, Songming He, Ziyi Ye, Xi Zhu, Weihang Su, Shuqi Zhu, Yujia Zhou, Yongfeng Zhang, Qingyao Ai, Yiqun Liu,
- Abstract要約: 大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 55.55404595177229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are exhibiting emergent human-like abilities and are increasingly envisioned as the foundation for simulating an individual's communication style, behavioral tendencies, and personality traits. However, current evaluations of LLM-based persona simulation remain limited: most rely on synthetic dialogues, lack systematic frameworks, and lack analysis of the capability requirement. To address these limitations, we introduce TwinVoice, a comprehensive benchmark for assessing persona simulation across diverse real-world contexts. TwinVoice encompasses three dimensions: Social Persona (public social interactions), Interpersonal Persona (private dialogues), and Narrative Persona (role-based expression). It further decomposes the evaluation of LLM performance into six fundamental capabilities, including opinion consistency, memory recall, logical reasoning, lexical fidelity, persona tone, and syntactic style. Experimental results reveal that while advanced models achieve moderate accuracy in persona simulation, they still fall short of capabilities such as syntactic style and memory recall. Consequently, the average performance achieved by LLMs remains considerably below the human baseline.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 個人のコミュニケーションスタイル, 行動傾向, 性格特性をシミュレートする基盤として, 創発的な人間的な能力を示す。
しかしながら、LLMに基づくペルソナシミュレーションの現在の評価は、ほとんどの場合、合成対話に依存し、体系的なフレームワークが欠如し、能力要件の分析が欠如している。
これらの制約に対処するために、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するための総合的なベンチマークであるTwinVoiceを紹介した。
TwinVoiceは、ソーシャルペルソナ(パブリックソーシャルインタラクション)、対人ペルソナ(プライベート対話)、ナラティブペルソナ(ロールベース表現)の3つの側面を含む。
さらに、LLMパフォーマンスの評価を、意見整合性、メモリリコール、論理的推論、語彙的忠実性、ペルソナトーン、構文的スタイルを含む6つの基本的な機能に分解する。
実験結果から,高度なモデルではペルソナシミュレーションでは適度な精度が得られたが,構文的スタイルやメモリリコールといった能力に欠けていたことが判明した。
したがって、LLMが達成した平均性能は、人間のベースラインよりかなり低いままである。
関連論文リスト
- Scaling Law in LLM Simulated Personality: More Detailed and Realistic Persona Profile Is All You Need [17.298070053011802]
本研究では,大規模言語モデル(LLM)を用いて社会実験をシミュレートし,仮想ペルソナロールプレイングにおける人間の個性をエミュレートする能力を探求する。
本研究は、安定性と識別可能性の個人レベルの分析を含むエンドツーエンド評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-10T05:52:07Z) - PersonaFuse: A Personality Activation-Driven Framework for Enhancing Human-LLM Interactions [14.497181581363288]
PersonaFuseは、大規模言語モデルが異なるパーソナリティを適応し表現できるようにする新しいフレームワークである。
テストでは、PersonaFuseは、社会的感情知性の多次元にわたるベースラインモデルを大幅に上回っている。
PersonaFuseは、下流の人間中心のアプリケーションでも一貫した改善を提供する。
論文 参考訳(メタデータ) (2025-09-09T03:39:28Z) - How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.713599131902566]
本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。
BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。
総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
論文 参考訳(メタデータ) (2025-02-20T15:29:32Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - LLMs Simulate Big Five Personality Traits: Further Evidence [51.13560635563004]
Llama2, GPT4, Mixtralでシミュレートされた性格特性を解析した。
このことは、パーソナリティ特性をシミュレートするLLMの能力のより広範な理解に寄与する。
論文 参考訳(メタデータ) (2024-01-31T13:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。