Fugu-MT 論文翻訳(概要): On the Way to LLM Personalization: Learning to Remember User Conversations

論文の概要: On the Way to LLM Personalization: Learning to Remember User Conversations

arxiv url: http://arxiv.org/abs/2411.13405v1
Date: Wed, 20 Nov 2024 15:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.512815
Title: On the Way to LLM Personalization: Learning to Remember User Conversations
Title（参考訳）: LLMパーソナライズへの道 - ユーザの会話を思い出すための学習-
Authors: Lucie Charlotte Magister, Katherine Metcalf, Yizhe Zhang, Maartje ter Hoeve,
Abstract要約: 大規模言語モデル(LLM)は、すぐに様々なタスクの貴重なアシスタントとなりました。しかし、その効果は、パーソナライズによる人間の好みや行動に対する反応を調整できる能力によって制限されている。従来の会話の知識をLCMに注入し、冗長でパーソナライズドな会話に将来の作業を可能にすることを提案する。
参考スコア（独自算出の注目度）: 13.041775936106998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have quickly become an invaluable assistant for a variety of tasks. However, their effectiveness is constrained by their ability to tailor responses to human preferences and behaviors via personalization. Prior work in LLM personalization has largely focused on style transfer or incorporating small factoids about the user, as knowledge injection remains an open challenge. In this paper, we explore injecting knowledge of prior conversations into LLMs to enable future work on less redundant, personalized conversations. We identify two real-world constraints: (1) conversations are sequential in time and must be treated as such during training, and (2) per-user personalization is only viable in parameter-efficient settings. To this aim, we propose PLUM, a pipeline performing data augmentation for up-sampling conversations as question-answer pairs, that are then used to finetune a low-rank adaptation adapter with a weighted cross entropy loss. Even in this first exploration of the problem, we perform competitively with baselines such as RAG, attaining an accuracy of 81.5% across 100 conversations.
Abstract（参考訳）: 大規模言語モデル(LLM)は、すぐに様々なタスクの貴重なアシスタントとなりました。しかし、その効果は、パーソナライズによる人間の好みや行動に対する反応を調整できる能力によって制限されている。 LLMのパーソナライズにおける以前の作業は、知識注入がオープンな課題であり続けているため、スタイル転送やユーザに関する小さなファクトイドの導入に重点を置いていた。本稿では,従来の会話の知識を LLM に注入して,冗長でパーソナライズされた会話に将来の作業を可能にする方法について検討する。 1)会話は時間的に連続的に行われ、トレーニング中にそのように扱わなければならず、(2) ユーザごとのパーソナライゼーションはパラメータ効率のよい設定でのみ実行可能である。そこで本研究では,質問応答対として会話をアップサンプリングするためのデータ拡張を行うPLUMを提案し,低ランク適応アダプタを重み付きクロスエントロピー損失で微調整する。この問題の最初の調査でも、RAGのようなベースラインと競合し、100の会話で81.5%の精度を達成した。

関連論文リスト

Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [11.495697919066341]
ポリシーエージェントは、ユーザの好み、性格、属性に合った振る舞いをパーソナライズできなければならない。 Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを付加することを提案する。
論文参考訳（メタデータ） (2025-04-04T06:35:02Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文参考訳（メタデータ） (2024-10-04T17:48:29Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Selective Prompting Tuning for Personalized Conversations with LLMs [31.28284591597932]
textbfSelective textbfPrompt textbfTuning (SPT)を提案する。 SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上させる。
論文参考訳（メタデータ） (2024-06-26T09:03:52Z)
Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。 LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文参考訳（メタデータ） (2024-05-06T13:53:03Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Integrating Summarization and Retrieval for Enhanced Personalization via Large Language Models [11.950478880423733]
パーソナライゼーションは自然言語処理(NLP)システムにおけるユーザエクスペリエンスにおいて重要な要素である。 LLM(Large Language Models)の出現によって、重要な疑問は、これらのモデルを使ってユーザエクスペリエンスをよりパーソナライズする方法である。 LLMが生成するタスク対応ユーザ要約を用いた,新しい要約型パーソナライゼーションを提案する。
論文参考訳（メタデータ） (2023-10-30T23:40:41Z)
Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文参考訳（メタデータ） (2022-08-23T09:00:58Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)
AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。 5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文参考訳（メタデータ） (2022-02-10T04:04:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。