論文の概要: HumanLM: Simulating Users with State Alignment Beats Response Imitation
- arxiv url: http://arxiv.org/abs/2603.03303v1
- Date: Sat, 07 Feb 2026 20:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.129397
- Title: HumanLM: Simulating Users with State Alignment Beats Response Imitation
- Title(参考訳): HumanLM: 状態アライメントでユーザをシミュレートする
- Authors: Shirley Wu, Evelyn Choi, Arpandeep Khatua, Zhanghan Wang, Joy He-Yueya, Tharindu Cyril Weerasooriya, Wei Wei, Diyi Yang, Jure Leskovec, James Zou,
- Abstract要約: 本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。
HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。
本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
- 参考スコア(独自算出の注目度): 84.89761487596844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to simulate how specific users respond to a given context, enabling more user-centric applications that rely on user feedback. However, existing user simulators mostly imitate surface-level patterns and language styles, which fail to reflect the underlying states of real users (e.g., beliefs and emotions). To address these limitations, we propose a novel training framework, HumanLM, which builds user simulators that accurately reflect real users. Our key insight is that, in addition to generating responses, the model should generate natural-language latent states that align with ground-truth responses through reinforcement learning. These latent states correspond to a set of psychologically grounded state dimensions that drive how real users respond. HumanLM further synthesizes these aligned latent states into responses that accurately represent real users. For extensive evaluation, we develop Humanual, a comprehensive benchmark for simulating real users based on public data. Humanual consists of six large-scale datasets with 26k users and 216k responses in total, spanning diverse tasks such as generating user responses to daily life issues, political blogs, and chat sessions with LLM assistants. Across datasets, HumanLM significantly outperforms alternative approaches, achieving an average relative improvement of 16.3% in alignment scores from an LLM judge. In a real-time simulation study with 111 participants, HumanLM achieves the highest similarity to real user responses and competitive human-likeness scores.
- Abstract(参考訳): 大きな言語モデル(LLM)は、特定のユーザが特定のコンテキストにどのように反応するかをシミュレートするために、ますます使われています。
しかし、既存のユーザシミュレータは、主に表面レベルのパターンや言語スタイルを模倣しており、実際のユーザ(信念や感情など)の根底にある状態を反映できない。
これらの制約に対処するために,実ユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。
我々の重要な洞察は、モデルが応答を生成することに加えて、強化学習を通して、地道的な反応と整合する自然言語の潜伏状態を生成することである。
これらの潜伏状態は、実際のユーザの反応を駆動する心理学的根拠のある状態次元のセットに対応する。
HumanLMはさらに、これらの整列した潜在状態を、実際のユーザを正確に表現する応答に合成する。
本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
Humanualは6つの大規模なデータセットで構成され、合計で26kユーザ、216kレスポンスがあり、日々の生活問題に対するユーザ応答の生成、政治ブログ、LLMアシスタントとのチャットセッションなど、さまざまなタスクにまたがっている。
データセット全体では、HumanLMは代替手法よりも大幅に優れており、LCM判事のアライメントスコアの平均は16.3%向上している。
111人の参加者によるリアルタイムシミュレーション研究において、HumanLMは実際のユーザ反応と競合する人間類似度スコアに最もよく似ている。
関連論文リスト
- SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - Flipping the Dialogue: Training and Evaluating User Language Models [31.119620506835677]
汎用ユーザ言語モデル(ユーザLM)を紹介する。
ユーザLMは、マルチターン会話で人間のユーザをシミュレートする、ポストトレーニング後のモデルである。
ユーザLMが人間の行動とどのように一致しているかを示し、既存のシミュレーション手法よりも優れたシミュレーションロバスト性を実現する。
論文 参考訳(メタデータ) (2025-10-08T01:04:36Z) - SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants? [61.07963107032645]
大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。
人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
論文 参考訳(メタデータ) (2025-10-06T23:17:44Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。