論文の概要: Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
- arxiv url: http://arxiv.org/abs/2502.18968v3
- Date: Sun, 01 Jun 2025 08:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.129717
- Title: Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
- Title(参考訳): 人のようなユーザーシミュレータをインシシットプロフィールでモデル化する「Know You First and Be You Better」
- Authors: Kuang Wang, Xianfei Li, Shenghao Yang, Li Zhou, Feng Jiang, Haizhou Li,
- Abstract要約: 我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 37.43150003866563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User simulators are crucial for replicating human interactions with dialogue systems, supporting both collaborative training and automatic evaluation, especially for large language models (LLMs). However, current role-playing methods face challenges such as a lack of utterance-level authenticity and user-level diversity, often hindered by role confusion and dependence on predefined profiles of well-known figures. In contrast, direct simulation focuses solely on text, neglecting implicit user traits like personality and conversation-level consistency. To address these issues, we introduce the User Simulator with Implicit Profiles (USP), a framework that infers implicit user profiles from human-machine interactions to simulate personalized and realistic dialogues. We first develop an LLM-driven extractor with a comprehensive profile schema, then refine the simulation using conditional supervised fine-tuning and reinforcement learning with cycle consistency, optimizing at both the utterance and conversation levels. Finally, a diverse profile sampler captures the distribution of real-world user profiles. Experimental results show that USP outperforms strong baselines in terms of authenticity and diversity while maintaining comparable consistency. Additionally, using USP to evaluate LLM on dynamic multi-turn aligns well with mainstream benchmarks, demonstrating its effectiveness in real-world applications.
- Abstract(参考訳): ユーザシミュレータは対話システムとの対話を再現するために不可欠であり、特に大規模言語モデル(LLM)において協調トレーニングと自動評価の両方をサポートする。
しかし、現在のロールプレイング手法は、発話レベルの信頼性の欠如やユーザレベルの多様性の欠如といった課題に直面しており、しばしば役割の混乱や、よく知られた人物の事前定義されたプロファイルへの依存によって妨げられる。
対照的に、直接シミュレーションはテキストのみに焦点を当て、人格や会話レベルの一貫性といった暗黙のユーザー特性を無視している。
これらの課題に対処するために,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を導入する。
まず、総合的なプロファイルスキーマを持つLCM駆動抽出器を開発し、その後、条件付き教師付き微調整と強化学習を用いてシミュレーションを洗練し、発話レベルと会話レベルの両方で最適化する。
最後に、多様なプロファイルサンプルが現実世界のユーザプロファイルの分布をキャプチャする。
実験の結果,USPは同等の一貫性を維持しつつ,信頼性と多様性の点で高いベースラインを達成していることがわかった。
加えて、USPを用いて動的マルチターン上でのLLMの評価は、主要なベンチマークとよく一致し、実世界のアプリケーションでの有効性を実証する。
関連論文リスト
- FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Towards a Formal Characterization of User Simulation Objectives in Conversational Information Access [15.54070473873364]
ユーザシミュレーションは、会話情報アクセスエージェントを自動訓練し、評価するための有望なアプローチである。
トレーニングは実際のユーザとの行動類似性を最大化することを目的としており、評価は現実世界の会話エージェントのパフォーマンスの正確な予測に焦点を当てている。
論文 参考訳(メタデータ) (2024-06-27T08:46:41Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
強化学習(RL)レコメンデータシステムは、現実のシナリオにおけるユーザの好みの性質を変えることなく、流体をキャプチャできない静的データセットに依存することが多い。
LLMベースのシミュレーション環境であるLulsiferを導入し、RLベースのレコメンデータトレーニングのための動的で現実的なユーザフィードバックを生成する。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。