Fugu-MT 論文翻訳(概要): Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward

論文の概要: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward

arxiv url: http://arxiv.org/abs/2504.03206v1
Date: Fri, 04 Apr 2025 06:35:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 20:31:00.650155
Title: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
Title（参考訳）: 好奇心を逆転したパーソナライズされたマルチターン対話の実現
Authors: Yanming Wan, Jiaxing Wu, Marwa Abdulhai, Lior Shani, Natasha Jaques,
Abstract要約: ポリシーエージェントは、ユーザの好み、性格、属性に合った振る舞いをパーソナライズできなければならない。 Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを付加することを提案する。
参考スコア（独自算出の注目度）: 11.495697919066341
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective conversational agents must be able to personalize their behavior to suit a user's preferences, personality, and attributes, whether they are assisting with writing tasks or operating in domains like education or healthcare. Current training methods like Reinforcement Learning from Human Feedback (RLHF) prioritize helpfulness and safety but fall short in fostering truly empathetic, adaptive, and personalized interactions. Traditional approaches to personalization often rely on extensive user history, limiting their effectiveness for new or context-limited users. To overcome these limitations, we propose to incorporate an intrinsic motivation to improve the conversational agents's model of the user as an additional reward alongside multi-turn RLHF. This reward mechanism encourages the agent to actively elicit user traits by optimizing conversations to increase the accuracy of its user model. Consequently, the policy agent can deliver more personalized interactions through obtaining more information about the user. We applied our method both education and fitness settings, where LLMs teach concepts or recommend personalized strategies based on users' hidden learning style or lifestyle attributes. Using LLM-simulated users, our approach outperformed a multi-turn RLHF baseline in revealing information about the users' preferences, and adapting to them.
Abstract（参考訳）: 効果的な会話エージェントは、ユーザの好み、個性、属性に合った振る舞いをパーソナライズできなければならない。 Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。従来のパーソナライゼーションのアプローチは、しばしば広範なユーザー履歴に依存しており、新しいユーザーやコンテキスト限定のユーザーに対する有効性を制限している。これらの制限を克服するため,マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを導入することを提案する。この報酬機構により、エージェントは会話を最適化してユーザモデルの精度を高めることにより、ユーザの特性を積極的に引き出すことができる。これにより、ポリシーエージェントは、ユーザに関するより多くの情報を取得することにより、よりパーソナライズされたインタラクションを提供することができる。そこでは,LLMが概念を教えたり,ユーザの隠れ学習スタイルやライフスタイルに基づいたパーソナライズされた戦略を推奨したりする。 LLM-simulated users を用いて,マルチターン RLHF ベースラインの性能を向上し,ユーザの嗜好情報を明らかにし,それに適応した。

関連論文リスト

Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文参考訳（メタデータ） (2025-04-29T06:37:30Z)
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
Towards Personalized Conversational Sales Agents : Contextual User Profiling for Strategic Action [12.637812936971049]
本稿では、嗜好の誘惑、推薦、説得を統一する新しいタスクである会話販売(CSales)を紹介する。 CSales の現実的な評価のために,実世界のデータから構築した LLM ベースのユーザシミュレータ CSUser を提案する。また、対話型行動計画のための対話を通して文脈プロファイルを積極的に推測する対話型販売エージェントCSIを提案する。
論文参考訳（メタデータ） (2025-03-28T15:49:52Z)
UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文参考訳（メタデータ） (2025-02-26T14:34:00Z)
Combining LLM decision and RL action selection to improve RL policy for adaptive interventions [9.395236804312496]
我々は、RLポリシーをリアルタイムで更新するために、LLM(Large Language Models)の成功にインスパイアされています。テキストベースのユーザの好みは、ユーザの好みを即時に組み込むために、オンザフライでのアクション選択に影響を与える。提案手法は,RLポリシーを改善しつつ,テキストベースのユーザ嗜好を考慮し,適応的介入におけるパーソナライズを改善することができることを示す。
論文参考訳（メタデータ） (2025-01-13T00:03:20Z)
On the Way to LLM Personalization: Learning to Remember User Conversations [13.041775936106998]
大規模言語モデル(LLM)は、すぐに様々なタスクの貴重なアシスタントとなりました。しかし、その効果は、パーソナライズによる人間の好みや行動に対する反応を調整できる能力によって制限されている。従来の会話の知識をLCMに注入し、冗長でパーソナライズドな会話に将来の作業を可能にすることを提案する。
論文参考訳（メタデータ） (2024-11-20T15:45:08Z)
Interactive Garment Recommendation with User in the Loop [77.35411131350833]
我々は,服を作るために補完的なアイテムを推奨するので,ユーザ反応を統合することでユーザプロファイルをその場で構築することを提案する。本稿では,適切な衣服を提案し,ユーザのフィードバックを取り入れて推薦を改善することができる強化学習エージェントを提案する。
論文参考訳（メタデータ） (2024-02-18T16:01:28Z)
Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。 P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文参考訳（メタデータ） (2024-02-06T04:18:58Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
COLA: Improving Conversational Recommender Systems by Collaborative Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文参考訳（メタデータ） (2022-12-15T12:37:28Z)
Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文参考訳（メタデータ） (2020-06-19T20:49:14Z)
Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文参考訳（メタデータ） (2020-05-09T16:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。