論文の概要: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
- arxiv url: http://arxiv.org/abs/2504.03206v2
- Date: Mon, 07 Jul 2025 17:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.306762
- Title: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
- Title(参考訳): 好奇心を逆転したパーソナライズされたマルチターン対話の実現
- Authors: Yanming Wan, Jiaxing Wu, Marwa Abdulhai, Lior Shani, Natasha Jaques,
- Abstract要約: 本稿では,好奇心に基づく固有報酬をマルチターンRLHFに組み込むために,ユーザモデルを活用することを提案する。
この新たな報酬機構により、LLMエージェントは会話を最適化してユーザモデルの精度を向上させることにより、ユーザ特性を積極的に推測することができる。
提案手法の有効性は,会話推薦タスクにおけるパーソナライズ性能の大幅な向上と,教育環境における異なる学習スタイルにおける会話のパーソナライズという2つの領域で実証する。
- 参考スコア(独自算出の注目度): 11.495697919066341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective conversational agents like large language models (LLMs) must personalize their interactions to adapt to user preferences, personalities, and attributes across diverse domains like education and healthcare. Current methods like Reinforcement Learning from Human Feedback (RLHF), often prioritize helpfulness and safety but fall short in fostering truly empathetic, adaptive, and personalized dialogues. Existing personalization approaches typically rely on extensive user history, limiting their effectiveness for new or context-limited users. To address these limitations, we propose leveraging a user model to incorporate a curiosity-based intrinsic reward into multi-turn RLHF. This novel reward mechanism encourages the LLM agent to actively infer user traits by optimizing conversations to improve its user model's accuracy. Consequently, the agent delivers more personalized interactions by learning more about the user. We demonstrate our method's effectiveness in two distinct domains: significantly improving personalization performance in a conversational recommendation task, and personalizing conversations for different learning styles in an educational setting. We show improved generalization capabilities compared to traditional multi-turn RLHF, all while maintaining conversation quality. Our method offers a promising solution for creating more personalized, adaptive, and engaging conversational agents.
- Abstract(参考訳): 大きな言語モデル(LLM)のような効果的な会話エージェントは、ユーザの好みや個性、そして教育や医療といった様々な分野の属性に適応するために、対話をパーソナライズする必要がある。
Reinforcement Learning from Human Feedback (RLHF) のような現在の手法では、助け合いと安全性を優先することが多いが、真に共感的で適応的でパーソナライズされた対話を育むには不足している。
既存のパーソナライズアプローチは、一般的に広範なユーザ履歴に依存しており、新しいユーザやコンテキスト限定のユーザに対する有効性を制限している。
これらの制約に対処するために、好奇心に基づく固有報酬をマルチターンRLHFに組み込むために、ユーザモデルを活用することを提案する。
この新たな報酬機構により、LLMエージェントは会話を最適化してユーザモデルの精度を向上させることにより、ユーザ特性を積極的に推測することができる。
その結果、エージェントはユーザについてより深く学習することで、よりパーソナライズされたインタラクションを提供する。
提案手法の有効性は,会話推薦タスクにおけるパーソナライズ性能の大幅な向上と,教育環境における異なる学習スタイルにおける会話のパーソナライズという2つの領域で実証する。
会話品質を維持しつつ,従来のマルチターンRLHFと比較して,一般化能力の向上を示す。
我々の方法は、よりパーソナライズされ、適応され、魅力的な会話エージェントを作成するための有望なソリューションを提供する。
関連論文リスト
- Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Towards Personalized Conversational Sales Agents : Contextual User Profiling for Strategic Action [12.637812936971049]
本稿では、嗜好の誘惑、推薦、説得を統一する新しいタスクである会話販売(CSales)を紹介する。
CSales の現実的な評価のために,実世界のデータから構築した LLM ベースのユーザシミュレータ CSUser を提案する。
また、対話型行動計画のための対話を通して文脈プロファイルを積極的に推測する対話型販売エージェントCSIを提案する。
論文 参考訳(メタデータ) (2025-03-28T15:49:52Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Combining LLM decision and RL action selection to improve RL policy for adaptive interventions [9.395236804312496]
我々は、RLポリシーをリアルタイムで更新するために、LLM(Large Language Models)の成功にインスパイアされています。
テキストベースのユーザの好みは、ユーザの好みを即時に組み込むために、オンザフライでのアクション選択に影響を与える。
提案手法は,RLポリシーを改善しつつ,テキストベースのユーザ嗜好を考慮し,適応的介入におけるパーソナライズを改善することができることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:03:20Z) - On the Way to LLM Personalization: Learning to Remember User Conversations [13.041775936106998]
大規模言語モデル(LLM)は、すぐに様々なタスクの貴重なアシスタントとなりました。
しかし、その効果は、パーソナライズによる人間の好みや行動に対する反応を調整できる能力によって制限されている。
従来の会話の知識をLCMに注入し、冗長でパーソナライズドな会話に将来の作業を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:45:08Z) - Interactive Garment Recommendation with User in the Loop [77.35411131350833]
我々は,服を作るために補完的なアイテムを推奨するので,ユーザ反応を統合することでユーザプロファイルをその場で構築することを提案する。
本稿では,適切な衣服を提案し,ユーザのフィードバックを取り入れて推薦を改善することができる強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2024-02-18T16:01:28Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。