論文の概要: xMTF: A Formula-Free Model for Reinforcement-Learning-Based Multi-Task Fusion in Recommender Systems
- arxiv url: http://arxiv.org/abs/2504.05669v1
- Date: Tue, 08 Apr 2025 04:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:03.616874
- Title: xMTF: A Formula-Free Model for Reinforcement-Learning-Based Multi-Task Fusion in Recommender Systems
- Title(参考訳): xMTF:Recommenderシステムにおける強化学習型マルチタスクフュージョンのためのフォーミュラフリーモデル
- Authors: Yang Cao, Changhao Zhang, Xiaoshuang Chen, Kaiqiao Zhan, Ben Wang,
- Abstract要約: マルチタスク学習(MTL)モジュール、クリックスルー率などのフィードバック予測、マルチタスク融合(MTF)モジュール、これらの予測を項目ランキングの単一スコアに統合する。
本稿では, 既定式を置き換えるためのMTFフレームワークを提案し, 新たな学習可能な単調核融合セル (MFC) を提案する。
Sprecher Representation Theorem によれば、任意の適切な融合関数は単変数単調関数の合成として表現できる。
- 参考スコア(独自算出の注目度): 9.531326558213276
- License:
- Abstract: Recommender systems need to optimize various types of user feedback, e.g., clicks, likes, and shares. A typical recommender system handling multiple types of feedback has two components: a multi-task learning (MTL) module, predicting feedback such as click-through rate and like rate; and a multi-task fusion (MTF) module, integrating these predictions into a single score for item ranking. MTF is essential for ensuring user satisfaction, as it directly influences recommendation outcomes. Recently, reinforcement learning (RL) has been applied to MTF tasks to improve long-term user satisfaction. However, existing RL-based MTF methods are formula-based methods, which only adjust limited coefficients within pre-defined formulas. The pre-defined formulas restrict the RL search space and become a bottleneck for MTF. To overcome this, we propose a formula-free MTF framework. We demonstrate that any suitable fusion function can be expressed as a composition of single-variable monotonic functions, as per the Sprecher Representation Theorem. Leveraging this, we introduce a novel learnable monotonic fusion cell (MFC) to replace pre-defined formulas. We call this new MFC-based model eXtreme MTF (xMTF). Furthermore, we employ a two-stage hybrid (TSH) learning strategy to train xMTF effectively. By expanding the MTF search space, xMTF outperforms existing methods in extensive offline and online experiments.
- Abstract(参考訳): Recommenderシステムは、例えばクリック、いいね!、シェアなど、さまざまなタイプのユーザフィードバックを最適化する必要がある。
マルチタスク学習(MTL)モジュール、クリックスルー率などのフィードバック予測、マルチタスク融合(MTF)モジュール、これらの予測をアイテムランキングの単一スコアに統合する。
MTFは、推奨結果に直接影響するため、ユーザの満足度を確保するために不可欠である。
近年,長期ユーザ満足度を高めるため,MTFタスクに強化学習(RL)を適用している。
しかし、既存の RL ベースの MTF 法は式に基づく手法であり、あらかじめ定義された公式の中で限定係数を調整しているだけである。
事前定義された公式は、RL探索空間を制限し、MTFのボトルネックとなる。
これを解決するために、式のないMTFフレームワークを提案する。
任意の適切な融合関数は、Sprecher Representation Theoremのように、単変数単調関数の合成として表現できることを実証する。
これを利用して, 既定式を置き換えるための新しい学習可能な単調核融合細胞 (MFC) を導入する。
この新しいMFCモデル eXtreme MTF (xMTF) と呼ぶ。
さらに、xMTFを効果的に訓練するために、2段階のハイブリッド(TSH)学習戦略を採用する。
MTF検索空間を拡大することにより、xMTFはオフラインおよびオンラインの実験において既存の手法より優れている。
関連論文リスト
- Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems [12.277443583840963]
Recommender Systems(RS)におけるマルチタスク融合(MTF)のための拡張状態RLと呼ばれる新しい手法を提案する。
提案手法はまず,ユーザの特徴,項目の特徴,その他の重要な特徴を拡張状態として集合的に定義し,さらに,ユーザとイズムのペアに対してより優れたアクションを実現するために,拡張状態を活用する新しいアクタと批判的学習プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-18T03:34:31Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - Prompt Customization for Continual Learning [57.017987355717935]
本稿では,継続的学習のためのプロンプト的アプローチを再構築し,プロンプト的カスタマイズ(PC)手法を提案する。
PCは主にプロンプト生成モジュール(PGM)とプロンプト変調モジュール(PMM)で構成される。
提案手法は,クラス,ドメイン,タスクに依存しないインクリメンタル学習タスクを含む3つの異なる設定に対して,4つのベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-04-28T03:28:27Z) - An Offline Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems [19.443149691831856]
Multi-Task Fusion (MTF) は、Multi-Task Learning (MTL) が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化する。
近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。
統合RL-MTFは、オフラインRLモデルとオンライン探索ポリシーを統合し、制約を緩和し、複雑な制約を緩和します。
論文 参考訳(メタデータ) (2024-04-19T08:43:03Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - Multi-Task Fusion via Reinforcement Learning for Long-Term User
Satisfaction in Recommender Systems [3.4394890850129007]
バッチ強化学習に基づくマルチタスク融合フレームワーク(BatchRL-MTF)を提案する。
我々は、長期ユーザー満足のために、固定バッチデータから最適なレコメンデーションポリシーをオフラインで学習する。
ユーザの行動に関する包括的調査により,ユーザの定着度とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙にモデル化する。
論文 参考訳(メタデータ) (2022-08-09T06:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。