論文の概要: Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
- arxiv url: http://arxiv.org/abs/2502.18968v1
- Date: Wed, 26 Feb 2025 09:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 15:24:46.444917
- Title: Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
- Title(参考訳): 人のようなユーザーシミュレータをインシシットプロフィールでモデル化する「Know You First and Be You Better」
- Authors: Kuang Wang, Xianfei Li, Shenghao Yang, Li Zhou, Feng Jiang, Haizhou Li,
- Abstract要約: ユーザシミュレータは、対話システムとの人間のインタラクションを複製するのに不可欠である。
本研究では,人間と機械の会話から暗黙のユーザプロファイルを推論するフレームワークである暗黙のプロファイル(USP)を用いたユーザシミュレータを提案する。
USPは、一貫性において同等のパフォーマンスを達成しつつ、信頼性と多様性の観点から、強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 37.43150003866563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User simulators are crucial for replicating human interactions with dialogue systems, supporting both collaborative training and automatic evaluation, especially for large language models (LLMs). However, existing simulators often rely solely on text utterances, missing implicit user traits such as personality, speaking style, and goals. In contrast, persona-based methods lack generalizability, as they depend on predefined profiles of famous individuals or archetypes. To address these challenges, we propose User Simulator with implicit Profiles (USP), a framework that infers implicit user profiles from human-machine conversations and uses them to generate more personalized and realistic dialogues. We first develop an LLM-driven extractor with a comprehensive profile schema. Then, we refine the simulation through conditional supervised fine-tuning and reinforcement learning with cycle consistency, optimizing it at both the utterance and conversation levels. Finally, we adopt a diverse profile sampler to capture the distribution of real-world user profiles. Experimental results demonstrate that USP outperforms strong baselines in terms of authenticity and diversity while achieving comparable performance in consistency. Furthermore, dynamic multi-turn evaluations based on USP strongly align with mainstream benchmarks, demonstrating its effectiveness in real-world applications.
- Abstract(参考訳): ユーザシミュレータは対話システムとの対話を再現するために不可欠であり、特に大規模言語モデル(LLM)において協調トレーニングと自動評価の両方をサポートする。
しかし、既存のシミュレータはテキストの発話のみに依存しており、人格、話し方、目標といった暗黙的なユーザー特性を欠いていることが多い。
対照的に、ペルソナに基づく手法は、有名人や考古学者の事前定義されたプロファイルに依存するため、一般化性に欠ける。
これらの課題に対処するため,人間と機械の会話から暗黙のユーザプロファイルを推論し,よりパーソナライズされ,現実的な対話を生成するフレームワークである暗黙のプロファイル(USP)を用いたユーザシミュレータを提案する。
まず、総合的なプロファイルスキーマを持つLCM駆動抽出器を開発する。
そして,条件付き微調整と強化学習によるシミュレーションをサイクル整合性で洗練し,発話レベルと会話レベルの両方で最適化する。
最後に,実世界のユーザプロファイルの分布を捉えるために,多種多様なプロファイルサンプルを採用する。
実験の結果,USPは信頼性と多様性の点で高いベースラインを達成しつつ,一貫性で同等のパフォーマンスを実現していることがわかった。
さらに、USPに基づく動的マルチターン評価は主流のベンチマークと強く一致し、実世界のアプリケーションでの有効性を示す。
関連論文リスト
- RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.06936588273868]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - PUB: An LLM-Enhanced Personality-Driven User Behaviour Simulator for Recommender System Evaluation [9.841963696576546]
Personality-driven User Behaviour Simulator (PUB)は、パーソナライズされたユーザの振る舞いをモデル化するために、Big Fiveのパーソナリティ特性を統合している。
PUBは、行動ログ(例えば、評価、レビュー)とアイテムメタデータからユーザーの個性を動的に推論し、その後、実際のデータに対する統計的忠実性を保存するための合成相互作用を生成する。
Amazonレビューデータセットの実験では、PUBが生成したログは実際のユーザの行動と密接に一致し、パーソナリティ特性とレコメンデーション結果の間に有意義な関連性を明らかにする。
論文 参考訳(メタデータ) (2025-06-05T01:57:36Z) - Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions [0.6650227510403052]
本稿では,エッジデバイス上に展開可能な小型言語モデルの評価と改善を目的とした,新しいデータセットを提案する。
データセットの中核は構造化されたユーザプロファイルであり、それぞれがルーチンのセットによって定義される。
大規模言語モデル(LLM)は、現実的で多様性があり、コンテキスト対応の対話をシミュレートする、対応する対話セッションを生成する。
論文 参考訳(メタデータ) (2025-05-16T16:29:21Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Towards a Formal Characterization of User Simulation Objectives in Conversational Information Access [15.54070473873364]
ユーザシミュレーションは、会話情報アクセスエージェントを自動訓練し、評価するための有望なアプローチである。
トレーニングは実際のユーザとの行動類似性を最大化することを目的としており、評価は現実世界の会話エージェントのパフォーマンスの正確な予測に焦点を当てている。
論文 参考訳(メタデータ) (2024-06-27T08:46:41Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
強化学習(RL)レコメンデータシステムは、現実のシナリオにおけるユーザの好みの性質を変えることなく、流体をキャプチャできない静的データセットに依存することが多い。
LLMベースのシミュレーション環境であるLulsiferを導入し、RLベースのレコメンデータトレーニングのための動的で現実的なユーザフィードバックを生成する。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z) - DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues [7.765092134290888]
本稿では,大規模言語モデルを活用することで,タスク指向対話の複雑な要求に対処する新しいフレームワークであるDuetSimを紹介する。
DuetSim は2つの LLM をタンデムで採用することで従来の手法とは異なっている。
提案手法の有効性を,MultiWOZデータセットを用いた広範囲な実験により検証し,応答品質と正しさの向上を強調した。
論文 参考訳(メタデータ) (2024-05-16T06:24:31Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。