論文の概要: TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation
- arxiv url: http://arxiv.org/abs/2510.25536v2
- Date: Thu, 30 Oct 2025 11:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 13:50:54.758173
- Title: TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation
- Title(参考訳): TwinVoice: LLMペルソナシミュレーションによるディジタルツインズに向けた多次元ベンチマーク
- Authors: Bangde Du, Minghao Guo, Songming He, Ziyi Ye, Xi Zhu, Weihang Su, Shuqi Zhu, Yujia Zhou, Yongfeng Zhang, Qingyao Ai, Yiqun Liu,
- Abstract要約: 大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 55.55404595177229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are exhibiting emergent human-like abilities and are increasingly envisioned as the foundation for simulating an individual's communication style, behavioral tendencies, and personality traits. However, current evaluations of LLM-based persona simulation remain limited: most rely on synthetic dialogues, lack systematic frameworks, and lack analysis of the capability requirement. To address these limitations, we introduce TwinVoice, a comprehensive benchmark for assessing persona simulation across diverse real-world contexts. TwinVoice encompasses three dimensions: Social Persona (public social interactions), Interpersonal Persona (private dialogues), and Narrative Persona (role-based expression). It further decomposes the evaluation of LLM performance into six fundamental capabilities, including opinion consistency, memory recall, logical reasoning, lexical fidelity, persona tone, and syntactic style. Experimental results reveal that while advanced models achieve moderate accuracy in persona simulation, they still fall short of capabilities such as syntactic style and memory recall. Consequently, the average performance achieved by LLMs remains considerably below the human baseline.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 個人のコミュニケーションスタイル, 行動傾向, 性格特性をシミュレートする基盤として, 創発的な人間的な能力を示す。
しかしながら、LLMに基づくペルソナシミュレーションの現在の評価は、ほとんどの場合、合成対話に依存し、体系的なフレームワークが欠如し、能力要件の分析が欠如している。
これらの制約に対処するために、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するための総合的なベンチマークであるTwinVoiceを紹介した。
TwinVoiceは、ソーシャルペルソナ(パブリックソーシャルインタラクション)、対人ペルソナ(プライベート対話)、ナラティブペルソナ(ロールベース表現)の3つの側面を含む。
さらに、LLMパフォーマンスの評価を、意見整合性、メモリリコール、論理的推論、語彙的忠実性、ペルソナトーン、構文的スタイルを含む6つの基本的な機能に分解する。
実験結果から,高度なモデルではペルソナシミュレーションでは適度な精度が得られたが,構文的スタイルやメモリリコールといった能力に欠けていたことが判明した。
したがって、LLMが達成した平均性能は、人間のベースラインよりかなり低いままである。
関連論文リスト
- Eval4Sim: An Evaluation Framework for Persona Simulation [9.555170143860694]
Eval4Simは、人間の会話パターンといかに密にシミュレートされた会話を一致させるかを測定する評価フレームワークである。
絶対あるいは最適化指向のメトリクスとは異なり、Eval4Simは人間の会話コーパスを基準ベースラインとして使用し、両方の方向のずれを罰する。
論文 参考訳(メタデータ) (2026-03-03T11:30:50Z) - HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - Scaling Law in LLM Simulated Personality: More Detailed and Realistic Persona Profile Is All You Need [17.298070053011802]
本研究では,大規模言語モデル(LLM)を用いて社会実験をシミュレートし,仮想ペルソナロールプレイングにおける人間の個性をエミュレートする能力を探求する。
本研究は、安定性と識別可能性の個人レベルの分析を含むエンドツーエンド評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-10T05:52:07Z) - PersonaFuse: A Personality Activation-Driven Framework for Enhancing Human-LLM Interactions [14.497181581363288]
PersonaFuseは、大規模言語モデルが異なるパーソナリティを適応し表現できるようにする新しいフレームワークである。
テストでは、PersonaFuseは、社会的感情知性の多次元にわたるベースラインモデルを大幅に上回っている。
PersonaFuseは、下流の人間中心のアプリケーションでも一貫した改善を提供する。
論文 参考訳(メタデータ) (2025-09-09T03:39:28Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - IMPersona: Evaluating Individual Level LM Impersonation [28.040025302581366]
本稿では,特定の個人の書き方や個人の知識を擬人化するためのLM評価フレームワークであるIMPersonaを紹介する。
我々は、Llama-3.1-8B-Instructのような、わずかにサイズのオープンソースモデルでさえ、関連するレベルでの偽造能力を達成することを実証した。
論文 参考訳(メタデータ) (2025-04-06T02:57:58Z) - How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.713599131902566]
本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。
BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。
総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
論文 参考訳(メタデータ) (2025-02-20T15:29:32Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - LLMs Simulate Big Five Personality Traits: Further Evidence [51.13560635563004]
Llama2, GPT4, Mixtralでシミュレートされた性格特性を解析した。
このことは、パーソナリティ特性をシミュレートするLLMの能力のより広範な理解に寄与する。
論文 参考訳(メタデータ) (2024-01-31T13:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。