論文の概要: MUSE: Multi-Domain Chinese User Simulation via Self-Evolving Profiles and Rubric-Guided Alignment
- arxiv url: http://arxiv.org/abs/2604.13828v1
- Date: Wed, 15 Apr 2026 13:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.545239
- Title: MUSE: Multi-Domain Chinese User Simulation via Self-Evolving Profiles and Rubric-Guided Alignment
- Title(参考訳): MUSE: 自己進化プロファイルとルーブリック誘導アライメントによるマルチドメイン中国のユーザシミュレーション
- Authors: Zihao Liu, Hantao Zhou, Jiguo Li, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Peng Wang,
- Abstract要約: MUSEは、人間らしく、制御可能で、動作に一貫性のある応答を生成するために設計された中国のユーザーシミュレーションフレームワークである。
局所的な反応リアリズムと人間のような表現を改善するために,反復プロファイルの自己進化とロールリバーサル・スーパーバイザード・ファインタニングを提案する。
実験により、MUSEは発話レベルとセッションレベルの両方の評価において、強いベースラインを一貫して上回ることが示された。
- 参考スコア(独自算出の注目度): 15.586402133245313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User simulators are essential for the scalable training and evaluation of interactive AI systems. However, existing approaches often rely on shallow user profiling, struggle to maintain persona consistency over long interactions, and are largely limited to English or single-domain settings. We present MUSE, a multi-domain Chinese user simulation framework designed to generate human-like, controllable, and behaviorally consistent responses. First, we propose Iterative Profile Self-Evolution (IPSE), which gradually optimizes user profiles by comparing and reasoning discrepancies between simulated trajectories and real dialogue behaviors. We then apply Role-Reversal Supervised Fine-Tuning to improve local response realism and human-like expression. To enable fine-grained behavioral alignment, we further train a specialized rubric-based reward model and incorporate it into rubric-guided multi-turn reinforcement learning, which optimizes the simulator at the dialogue level and enhances long-horizon behavioral consistency. Experiments show that MUSE consistently outperforms strong baselines in both utterance-level and session-level evaluations, generating responses that are more realistic, coherent, and persona-consistent over extended interactions.
- Abstract(参考訳): 対話型AIシステムのスケーラブルなトレーニングと評価には,ユーザシミュレータが不可欠である。
しかし、既存のアプローチは、しばしば浅いユーザープロファイリングに頼り、長いやりとりでペルソナの一貫性を維持するのに苦労し、主に英語や単一ドメインの設定に限られる。
MUSEは、人間らしく、制御可能で、動作に一貫性のある応答を生成するために設計された、多ドメインの中国のユーザシミュレーションフレームワークである。
まず、シミュレーションされた軌跡と実際の対話行動との相違点を比較して、徐々にユーザープロファイルを最適化する反復プロファイル自己進化(IPSE)を提案する。
次に,ロールリバース・スーパーバイザード・ファインチューニングを適用し,局所的な反応リアリズムと人間のような表現を改善する。
粒度の細かい行動アライメントを実現するため,特定ルーリックベース報酬モデルをさらに訓練し,対話レベルでシミュレータを最適化し,長時間の行動整合性を高めるルーリック誘導多ターン強化学習に組み込む。
実験により、MUSEは発話レベルとセッションレベルの両方の評価において、強いベースラインを一貫して上回り、より現実的で一貫性があり、拡張された相互作用よりもペルソナ一貫性のある応答を生成することが示された。
関連論文リスト
- Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - HumanLM: Simulating Users with State Alignment Beats Response Imitation [84.89761487596844]
本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。
HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。
本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
論文 参考訳(メタデータ) (2026-02-07T20:26:28Z) - UserLM-R1: Modeling Human Reasoning in User Language Models with Multi-Reward Reinforcement Learning [32.51053667574764]
推論機能を備えた新しいユーザ言語モデルであるUserLM-R1を提案する。
まず,静的な役割と,多様なシナリオに適応するための動的シナリオ特異的な目標を兼ね備えた包括的ユーザプロファイルを構築した。
そこで我々は,応答を生成する前に,高品質な合理性を生成するためのゴール駆動意思決定政策を提案する。
論文 参考訳(メタデータ) (2026-01-14T06:42:01Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。