論文の概要: Eval4Sim: An Evaluation Framework for Persona Simulation
- arxiv url: http://arxiv.org/abs/2603.02876v1
- Date: Tue, 03 Mar 2026 11:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.767452
- Title: Eval4Sim: An Evaluation Framework for Persona Simulation
- Title(参考訳): Eval4Sim:ペルソナシミュレーションのための評価フレームワーク
- Authors: Eliseo Bao, Anxo Perez, Xi Wang, Javier Parapar,
- Abstract要約: Eval4Simは、人間の会話パターンといかに密にシミュレートされた会話を一致させるかを測定する評価フレームワークである。
絶対あるいは最適化指向のメトリクスとは異なり、Eval4Simは人間の会話コーパスを基準ベースラインとして使用し、両方の方向のずれを罰する。
- 参考スコア(独自算出の注目度): 9.555170143860694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) personas with explicit specifications of attributes, background, and behavioural tendencies are increasingly used to simulate human conversations for tasks such as user modeling, social reasoning, and behavioural analysis. Ensuring that persona-grounded simulations faithfully reflect human conversational behaviour is therefore critical. However, current evaluation practices largely rely on LLM-as-a-judge approaches, offering limited grounding in observable human behavior and producing opaque scalar scores. We address this gap by proposing Eval4Sim, an evaluation framework that measures how closely simulated conversations align with human conversational patterns across three complementary dimensions. Adherence captures how effectively persona backgrounds are implicitly encoded in generated utterances, assessed via dense retrieval with speaker-aware representations. Consistency evaluates whether a persona maintains a distinguishable identity across conversations, computed through authorship verification. Naturalness reflects whether conversations exhibit human-like flow rather than overly rigid or optimized structure, quantified through distributions derived from dialogue-focused Natural Language Inference. Unlike absolute or optimization-oriented metrics, Eval4Sim uses a human conversational corpus (i.e., PersonaChat) as a reference baseline and penalizes deviations in both directions, distinguishing insufficient persona encoding from over-optimized, unnatural behaviour. Although demonstrated on PersonaChat, the applicability of Eval4Sim extends to any conversational corpus containing speaker-level annotations.
- Abstract(参考訳): 属性、背景、行動傾向の明示的な仕様を持つLarge Language Model (LLM)ペルソナは、ユーザモデリング、社会的推論、行動分析といったタスクに対する人間の会話をシミュレートするために、ますます使われている。
したがって、人為的なシミュレーションが人間の会話行動に忠実に反映することを保証することが重要である。
しかし、現在の評価手法はLLM-as-a-judgeアプローチに大きく依存しており、観察可能な人間の行動に限定的な基盤を提供し、不透明なスカラースコアを生成する。
Eval4Simは、3つの相補的な次元にわたる人間の会話パターンと密にシミュレートされた会話がどのように一致しているかを測定する評価フレームワークである。
適応性(Adherence)は、話者認識表現による密集した検索によって評価された、生成した発話において、ペルソナの背景が暗黙的に暗黙的に符号化されることを効果的にキャプチャする。
一貫性は、著者の検証によって計算される会話の中で、ペルソナが識別可能なアイデンティティを維持しているかどうかを評価する。
自然性は、対話に焦点をあてた自然言語推論から導かれる分布を通して定量化される、過度に厳密な構造や最適化された構造よりも人間のような流れを示すかどうかを反映している。
絶対的あるいは最適化指向のメトリクスとは異なり、Eval4Simは人間の会話コーパス(つまりペルソナチャット)を基準ベースラインとして使用し、両方の方向のずれを罰し、過度に最適化された不自然な振る舞いから不十分なペルソナエンコーディングを区別する。
PersonaChatで実証されているが、Eval4Simの適用性は、話者レベルのアノテーションを含む会話コーパスに拡張されている。
関連論文リスト
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - Human vs. Agent in Task-Oriented Conversations [22.743152820695588]
本研究は,大規模言語モデル(LLM)を模擬したユーザとタスク指向の対話における人間ユーザとの体系的比較を行った最初の事例である。
本分析により,問題解決手法における2つのユーザタイプ間の行動的差異が明らかとなった。
論文 参考訳(メタデータ) (2025-09-22T11:30:39Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。