論文の概要: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
- arxiv url: http://arxiv.org/abs/2504.03206v1
- Date: Fri, 04 Apr 2025 06:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 20:31:00.650155
- Title: Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward
- Title(参考訳): 好奇心を逆転したパーソナライズされたマルチターン対話の実現
- Authors: Yanming Wan, Jiaxing Wu, Marwa Abdulhai, Lior Shani, Natasha Jaques,
- Abstract要約: ポリシーエージェントは、ユーザの好み、性格、属性に合った振る舞いをパーソナライズできなければならない。
Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。
マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを付加することを提案する。
- 参考スコア(独自算出の注目度): 11.495697919066341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective conversational agents must be able to personalize their behavior to suit a user's preferences, personality, and attributes, whether they are assisting with writing tasks or operating in domains like education or healthcare. Current training methods like Reinforcement Learning from Human Feedback (RLHF) prioritize helpfulness and safety but fall short in fostering truly empathetic, adaptive, and personalized interactions. Traditional approaches to personalization often rely on extensive user history, limiting their effectiveness for new or context-limited users. To overcome these limitations, we propose to incorporate an intrinsic motivation to improve the conversational agents's model of the user as an additional reward alongside multi-turn RLHF. This reward mechanism encourages the agent to actively elicit user traits by optimizing conversations to increase the accuracy of its user model. Consequently, the policy agent can deliver more personalized interactions through obtaining more information about the user. We applied our method both education and fitness settings, where LLMs teach concepts or recommend personalized strategies based on users' hidden learning style or lifestyle attributes. Using LLM-simulated users, our approach outperformed a multi-turn RLHF baseline in revealing information about the users' preferences, and adapting to them.
- Abstract(参考訳): 効果的な会話エージェントは、ユーザの好み、個性、属性に合った振る舞いをパーソナライズできなければならない。
Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。
従来のパーソナライゼーションのアプローチは、しばしば広範なユーザー履歴に依存しており、新しいユーザーやコンテキスト限定のユーザーに対する有効性を制限している。
これらの制限を克服するため,マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを導入することを提案する。
この報酬機構により、エージェントは会話を最適化してユーザモデルの精度を高めることにより、ユーザの特性を積極的に引き出すことができる。
これにより、ポリシーエージェントは、ユーザに関するより多くの情報を取得することにより、よりパーソナライズされたインタラクションを提供することができる。
そこでは,LLMが概念を教えたり,ユーザの隠れ学習スタイルやライフスタイルに基づいたパーソナライズされた戦略を推奨したりする。
LLM-simulated users を用いて,マルチターン RLHF ベースラインの性能を向上し,ユーザの嗜好情報を明らかにし,それに適応した。
関連論文リスト
- Learning Pluralistic User Preferences through Reinforcement Learning Fine-tuned Summaries [13.187789731783095]
本稿では,各ユーザの好み,特徴,過去の会話をテキストベースで要約する新しいフレームワークを提案する。
これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。
提案手法は,新規ユーザや多様な会話トピックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2025-07-17T23:48:51Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Enhancing User-Oriented Proactivity in Open-Domain Dialogues with Critic Guidance [35.15965694815852]
オープンドメイン対話システムは自然な会話を生み出すことを目的としている。
既存の大きな言語モデル(LLM)は、ユーザのチャットの好みを積極的に理解できない。
ユーザ指向のプロアクティブ性を高めるために,ユーザ指向プロアクティブ(UPC)を提案する。
論文 参考訳(メタデータ) (2025-05-18T09:59:22Z) - Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Exploring Personality-Aware Interactions in Salesperson Dialogue Agents [21.282523537612477]
本研究では,Mers-Briggs Type Indicator (MBTI) を用いて定義したユーザペルソナが,営業指向対話エージェントのインタラクション品質とパフォーマンスに与える影響について検討する。
本研究は,対話のダイナミクス,タスク完了率,対話自然性の顕著なパターンを明らかにし,対話エージェントが戦略を洗練させる可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-25T04:10:25Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - Towards Personalized Conversational Sales Agents : Contextual User Profiling for Strategic Action [12.637812936971049]
本稿では、嗜好の誘惑、推薦、説得を統一する新しいタスクである会話販売(CSales)を紹介する。
CSales の現実的な評価のために,実世界のデータから構築した LLM ベースのユーザシミュレータ CSUser を提案する。
また、対話型行動計画のための対話を通して文脈プロファイルを積極的に推測する対話型販売エージェントCSIを提案する。
論文 参考訳(メタデータ) (2025-03-28T15:49:52Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Combining LLM decision and RL action selection to improve RL policy for adaptive interventions [9.395236804312496]
我々は、RLポリシーをリアルタイムで更新するために、LLM(Large Language Models)の成功にインスパイアされています。
テキストベースのユーザの好みは、ユーザの好みを即時に組み込むために、オンザフライでのアクション選択に影響を与える。
提案手法は,RLポリシーを改善しつつ,テキストベースのユーザ嗜好を考慮し,適応的介入におけるパーソナライズを改善することができることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:03:20Z) - On the Way to LLM Personalization: Learning to Remember User Conversations [13.041775936106998]
大規模言語モデル(LLM)は、すぐに様々なタスクの貴重なアシスタントとなりました。
しかし、その効果は、パーソナライズによる人間の好みや行動に対する反応を調整できる能力によって制限されている。
従来の会話の知識をLCMに注入し、冗長でパーソナライズドな会話に将来の作業を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:45:08Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - CloChat: Understanding How People Customize, Interact, and Experience
Personas in Large Language Models [15.915071948354466]
CloChatは、大規模言語モデルにおけるエージェントペルソナの簡単かつ正確なカスタマイズをサポートするインターフェースである。
その結果、参加者はカスタマイズされたエージェントと感情結合を形成し、よりダイナミックな対話を行い、相互作用を持続することに興味を示した。
論文 参考訳(メタデータ) (2024-02-23T11:25:17Z) - Interactive Garment Recommendation with User in the Loop [77.35411131350833]
我々は,服を作るために補完的なアイテムを推奨するので,ユーザ反応を統合することでユーザプロファイルをその場で構築することを提案する。
本稿では,適切な衣服を提案し,ユーザのフィードバックを取り入れて推薦を改善することができる強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2024-02-18T16:01:28Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。