論文の概要: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
- arxiv url: http://arxiv.org/abs/2504.03206v1
- Date: Fri, 04 Apr 2025 06:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:38.064563
- Title: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
- Title(参考訳): 好奇心を逆転したパーソナライズされたマルチターン対話の実現
- Authors: Yanming Wan, Jiaxing Wu, Marwa Abdulhai, Lior Shani, Natasha Jaques,
- Abstract要約: ポリシーエージェントは、ユーザの好み、性格、属性に合った振る舞いをパーソナライズできなければならない。
Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。
マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを付加することを提案する。
- 参考スコア(独自算出の注目度): 11.495697919066341
- License:
- Abstract: Effective conversational agents must be able to personalize their behavior to suit a user's preferences, personality, and attributes, whether they are assisting with writing tasks or operating in domains like education or healthcare. Current training methods like Reinforcement Learning from Human Feedback (RLHF) prioritize helpfulness and safety but fall short in fostering truly empathetic, adaptive, and personalized interactions. Traditional approaches to personalization often rely on extensive user history, limiting their effectiveness for new or context-limited users. To overcome these limitations, we propose to incorporate an intrinsic motivation to improve the conversational agents's model of the user as an additional reward alongside multi-turn RLHF. This reward mechanism encourages the agent to actively elicit user traits by optimizing conversations to increase the accuracy of its user model. Consequently, the policy agent can deliver more personalized interactions through obtaining more information about the user. We applied our method both education and fitness settings, where LLMs teach concepts or recommend personalized strategies based on users' hidden learning style or lifestyle attributes. Using LLM-simulated users, our approach outperformed a multi-turn RLHF baseline in revealing information about the users' preferences, and adapting to them.
- Abstract(参考訳): 効果的な会話エージェントは、ユーザの好み、個性、属性に合った振る舞いをパーソナライズできなければならない。
Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。
従来のパーソナライゼーションのアプローチは、しばしば広範なユーザー履歴に依存しており、新しいユーザーやコンテキスト限定のユーザーに対する有効性を制限している。
これらの制限を克服するため,マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを導入することを提案する。
この報酬機構により、エージェントは会話を最適化してユーザモデルの精度を高めることにより、ユーザの特性を積極的に引き出すことができる。
これにより、ポリシーエージェントは、ユーザに関するより多くの情報を取得することにより、よりパーソナライズされたインタラクションを提供することができる。
そこでは,LLMが概念を教えたり,ユーザの隠れ学習スタイルやライフスタイルに基づいたパーソナライズされた戦略を推奨したりする。
LLM-simulated users を用いて,マルチターン RLHF ベースラインの性能を向上し,ユーザの嗜好情報を明らかにし,それに適応した。
関連論文リスト
- Combining LLM decision and RL action selection to improve RL policy for adaptive interventions [9.395236804312496]
我々は、RLポリシーをリアルタイムで更新するために、LLM(Large Language Models)の成功にインスパイアされています。
テキストベースのユーザの好みは、ユーザの好みを即時に組み込むために、オンザフライでのアクション選択に影響を与える。
提案手法は,RLポリシーを改善しつつ,テキストベースのユーザ嗜好を考慮し,適応的介入におけるパーソナライズを改善することができることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:03:20Z) - On the Way to LLM Personalization: Learning to Remember User Conversations [13.041775936106998]
大規模言語モデル(LLM)は、すぐに様々なタスクの貴重なアシスタントとなりました。
しかし、その効果は、パーソナライズによる人間の好みや行動に対する反応を調整できる能力によって制限されている。
従来の会話の知識をLCMに注入し、冗長でパーソナライズドな会話に将来の作業を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:45:08Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Interactive Garment Recommendation with User in the Loop [77.35411131350833]
我々は,服を作るために補完的なアイテムを推奨するので,ユーザ反応を統合することでユーザプロファイルをその場で構築することを提案する。
本稿では,適切な衣服を提案し,ユーザのフィードバックを取り入れて推薦を改善することができる強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2024-02-18T16:01:28Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Factual and Personalized Recommendations using Language Models and
Reinforcement Learning [38.96462170594542]
我々はP4LM(Compelling, Precise, Personalized, Preference-relevant Language Model)を開発した。
P4LMは、アイテムの特徴とその関連性を説明しながら、ユーザにアイテムを推奨する。
我々は、精度、魅力、パーソナライゼーションを測定する共同報酬関数を開発する。
論文 参考訳(メタデータ) (2023-10-09T21:58:55Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。