論文の概要: RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs
- arxiv url: http://arxiv.org/abs/2409.04421v1
- Date: Fri, 6 Sep 2024 17:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:05:01.224195
- Title: RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs
- Title(参考訳): RLPF:LLMを用いたユーザ要約のための予測フィードバックからの強化学習
- Authors: Jiaxing Wu, Lin Ning, Luyang Liu, Harrison Lee, Neo Wu, Chao Wang, Sushant Prakash, Shawn O'Banion, Bradley Green, Jun Xie,
- Abstract要約: 本稿では,RLPF(Reinforcement Learning from Prediction Feedback)を導入し,簡潔で可読なユーザ要約を生成する。
RLPFは、ダウンストリームタスクに最適化されたユーザサマリーを生成するために、既存のLarge Language Models(LLM)を微調整する。
実験による評価は,外因性ダウンストリームタスクユーティリティと内因性要約品質の両面で有意な改善を示した。
- 参考スコア(独自算出の注目度): 25.034187557580704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-powered personalization agent systems employ Large Language Models (LLMs) to predict users' behavior from their past activities. However, their effectiveness often hinges on the ability to effectively leverage extensive, long user historical data due to its inherent noise and length of such data. Existing pretrained LLMs may generate summaries that are concise but lack the necessary context for downstream tasks, hindering their utility in personalization systems. To address these challenges, we introduce Reinforcement Learning from Prediction Feedback (RLPF). RLPF fine-tunes LLMs to generate concise, human-readable user summaries that are optimized for downstream task performance. By maximizing the usefulness of the generated summaries, RLPF effectively distills extensive user history data while preserving essential information for downstream tasks. Our empirical evaluation demonstrates significant improvements in both extrinsic downstream task utility and intrinsic summary quality, surpassing baseline methods by up to 22% on downstream task performance and achieving an up to 84.59% win rate on Factuality, Abstractiveness, and Readability. RLPF also achieves a remarkable 74% reduction in context length while improving performance on 16 out of 19 unseen tasks and/or datasets, showcasing its generalizability. This approach offers a promising solution for enhancing LLM personalization by effectively transforming long, noisy user histories into informative and human-readable representations.
- Abstract(参考訳): LLMを利用したパーソナライズエージェントシステムは,過去の活動からユーザの行動を予測するために,Large Language Models (LLMs) を使用している。
しかし、その効果はしばしば、そのようなデータ固有のノイズと長さのために、広範で長いユーザー履歴データを効果的に活用する能力に依存している。
既存の事前訓練されたLLMは、簡潔だが下流のタスクに必要なコンテキストを欠いている要約を生成し、パーソナライズシステムにおけるそれらの有用性を妨げている。
これらの課題に対処するために、予測フィードバック(RLPF)からの強化学習を紹介する。
RLPFファインチューンLSMは、ダウンストリームタスクのパフォーマンスに最適化された簡潔で可読なユーザサマリーを生成する。
生成された要約の有用性を最大化することにより、RLPFは下流タスクに不可欠な情報を保持しながら、広範囲なユーザ履歴データを効果的に蒸留する。
実験による評価では,外在的ダウンストリームタスクユーティリティと内在的要約品質が向上し,ダウンストリームタスク性能が最大22%向上し,ファクタリティ,抽象性,可読性が最大84.59%向上した。
RLPFはまた、19の未確認タスクおよび/またはデータセットのうち16のパフォーマンスを改善しながら、コンテキスト長の74%の顕著な削減を実現し、その一般化可能性を示している。
このアプローチは、長めのノイズの多いユーザ履歴を情報的で可読な表現に効果的に変換することで、LCMのパーソナライズを強化するための有望なソリューションを提供する。
関連論文リスト
- Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Knowledge Graph Tuning: Real-time Large Language Model Personalization based on Human Feedback [5.778012023739487]
大規模言語モデル(LLM)をパーソナライズするための知識グラフチューニング(KGT)を提案する。
KGTは、ユーザのクエリとフィードバックからパーソナライズされた事実知識を抽出し、LLMパラメータを変更することなくKGを最適化する。
GPT-2、Llama2、Llama3を含む最先端のLLMによる実験では、KGTはレイテンシとGPUメモリコストを削減しつつ、パーソナライズ性能を著しく改善している。
論文 参考訳(メタデータ) (2024-05-30T04:57:03Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Integrating Summarization and Retrieval for Enhanced Personalization via
Large Language Models [11.950478880423733]
パーソナライゼーションは自然言語処理(NLP)システムにおけるユーザエクスペリエンスにおいて重要な要素である。
LLM(Large Language Models)の出現によって、重要な疑問は、これらのモデルを使ってユーザエクスペリエンスをよりパーソナライズする方法である。
LLMが生成するタスク対応ユーザ要約を用いた,新しい要約型パーソナライゼーションを提案する。
論文 参考訳(メタデータ) (2023-10-30T23:40:41Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。