Fugu-MT 論文翻訳(概要): An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems

論文の概要: An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems

arxiv url: http://arxiv.org/abs/2409.11678v2
Date: Fri, 27 Sep 2024 11:17:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 19:50:48.209017
Title: An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems
Title（参考訳）: 大規模リコメンダシステムにおけるマルチタスク融合のための強化状態強化学習アルゴリズム
Authors: Peng Liu, Jiawei Zhu, Cong Xu, Ming Zhao, Bin Wang,
Abstract要約: Recommender Systems(RS)におけるマルチタスク融合(MTF)のための拡張状態RLと呼ばれる新しい手法を提案する。提案手法はまず,ユーザの特徴,項目の特徴,その他の重要な特徴を拡張状態として集合的に定義し,さらに,ユーザとイズムのペアに対してより優れたアクションを実現するために,拡張状態を活用する新しいアクタと批判的学習プロセスを提案する。
参考スコア（独自算出の注目度）: 12.277443583840963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the last key stage of Recommender Systems (RSs), Multi-Task Fusion (MTF) is in charge of combining multiple scores predicted by Multi-Task Learning (MTL) into a final score to maximize user satisfaction, which decides the ultimate recommendation results. In recent years, to maximize long-term user satisfaction within a recommendation session, Reinforcement Learning (RL) is widely used for MTF in large-scale RSs. However, limited by their modeling pattern, all the current RL-MTF methods can only utilize user features as the state to generate actions for each user, but unable to make use of item features and other valuable features, which leads to suboptimal results. Addressing this problem is a challenge that requires breaking through the current modeling pattern of RL-MTF. To solve this problem, we propose a novel method called Enhanced-State RL for MTF in RSs. Unlike the existing methods mentioned above, our method first defines user features, item features, and other valuable features collectively as the enhanced state; then proposes a novel actor and critic learning process to utilize the enhanced state to make much better action for each user-item pair. To the best of our knowledge, this novel modeling pattern is being proposed for the first time in the field of RL-MTF. We conduct extensive offline and online experiments in a large-scale RS. The results demonstrate that our model outperforms other models significantly. Enhanced-State RL has been fully deployed in our RS more than half a year, improving +3.84% user valid consumption and +0.58% user duration time compared to baseline.
Abstract（参考訳）: Recommender Systems(RS)の最終段階として、Multi-Task Fusion(MTF)は、Multi-Task Learning(MTL)によって予測される複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化し、最終的な推奨結果を決定する。近年,リコメンデーションセッションにおける長期的ユーザ満足度を最大化するために,大規模RSにおけるMDFには強化学習(Reinforcement Learning, RL)が広く用いられている。しかしながら、モデリングパターンによって制限されている現在のRL-MTFメソッドは、各ユーザに対してアクションを生成する状態としてのみユーザ機能を利用することができるが、アイテム機能やその他の価値ある機能を利用できないため、最適以下の結果が得られる。この問題に対処するには、現在のRL-MTFのモデリングパターンを破る必要がある。この問題を解決するために,RSにおけるMTFのための拡張状態RL法を提案する。上記の方法と異なり,提案手法はまず,ユーザの特徴,項目の特徴,その他の重要な特徴を拡張状態としてまとめて定義する。我々の知る限り、このモデリングパターンはRL-MTFの分野で初めて提案されている。大規模なRSで大規模なオフラインおよびオンライン実験を行う。その結果,本モデルが他のモデルよりも優れていたことが示唆された。拡張状態RLは半年以上にわたって我々のRSに完全にデプロイされ、ベースラインに比べて+3.84%のユーザ有効消費と+0.58%のユーザ持続時間が改善された。

関連論文リスト

ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
xMTF: A Formula-Free Model for Reinforcement-Learning-Based Multi-Task Fusion in Recommender Systems [9.531326558213276]
マルチタスク学習(MTL)モジュール、クリックスルー率などのフィードバック予測、マルチタスク融合(MTF)モジュール、これらの予測を項目ランキングの単一スコアに統合する。本稿では, 既定式を置き換えるためのMTFフレームワークを提案し, 新たな学習可能な単調核融合セル (MFC) を提案する。 Sprecher Representation Theorem によれば、任意の適切な融合関数は単変数単調関数の合成として表現できる。
論文参考訳（メタデータ） (2025-04-08T04:28:22Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。 LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文参考訳（メタデータ） (2024-09-30T03:59:06Z)
Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation [27.243116376164906]
マルチモーダルレコメンデーションのための大規模Matryoshka表現学習(fMRLRec)という軽量フレームワークを導入する。当社のfMRLRecは,複数次元にわたる効率的なレコメンデーションのための情報表現を学習し,各項目の特徴を異なる粒度で捉えている。複数のベンチマークデータセットに対するfMRLRecの有効性と有効性を示す。
論文参考訳（メタデータ） (2024-09-25T05:12:07Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Efficient and Responsible Adaptation of Large Language Models for Robust Top-k Recommendations [11.004673022505566]
何百万というユーザの長いクエリは、大規模言語モデルのパフォーマンスを低下させ、推奨することができる。本稿では,大規模言語モデルと従来のレコメンデーションシステムの両方の機能を利用するハイブリッドタスク割り当てフレームワークを提案する。実世界の3つのデータセットによる結果から,弱い利用者の減少と,サブ人口に対するRSのロバスト性の向上が示唆された。
論文参考訳（メタデータ） (2024-05-01T19:11:47Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems [19.443149691831856]
Multi-Task Fusion (MTF) は、Multi-Task Learning (MTL) が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化する。近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。本稿では,大規模RSにおいてMSF用にカスタマイズされたIntegratedRL-MTFを提案する。
論文参考訳（メタデータ） (2024-04-19T08:43:03Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems [3.4394890850129007]
バッチ強化学習に基づくマルチタスク融合フレームワーク(BatchRL-MTF)を提案する。我々は、長期ユーザー満足のために、固定バッチデータから最適なレコメンデーションポリシーをオフラインで学習する。ユーザの行動に関する包括的調査により,ユーザの定着度とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙にモデル化する。
論文参考訳（メタデータ） (2022-08-09T06:35:05Z)
Towards Universal Sequence Representation Learning for Recommender Systems [98.02154164251846]
我々はUniSRecという新しいユニバーサルシーケンス表現学習手法を提案する。提案手法は、項目の関連記述テキストを用いて、異なる推薦シナリオ間で転送可能な表現を学習する。我々のアプローチは、パラメータ効率のよい方法で、新しいレコメンデーションドメインやプラットフォームに効果的に移行できます。
論文参考訳（メタデータ） (2022-06-13T07:21:56Z)
Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimensional Relations [10.326429525379181]
本研究は,共有学習ネットワーク設計の「マクロ」視点を考察し,多面階層型MTLモデル(MFH)を提案する。 MFHは、共有学習を最大化するネスト付き階層木構造と多次元タスク関係を利用する。我々はMFHとSOTAモデルを100億サンプルの大規模ビデオプラットフォームで評価し、その結果、MFHは、オフラインおよびオンライン両方の評価において、SOTA MTLモデルよりも有意に優れていることを示した。
論文参考訳（メタデータ） (2021-10-26T02:35:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。