Fugu-MT 論文翻訳(概要): Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation

論文の概要: Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation

arxiv url: http://arxiv.org/abs/2108.09141v1
Date: Fri, 20 Aug 2021 12:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-23 13:34:42.962101
Title: Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation
Title（参考訳）: コールドスタートレコメンデーションにおけるライフタイム値最適化のための強化学習
Authors: Luo Ji and Qin Qi and Bingqing Han and Hongxia Yang
Abstract要約: 本稿では,レコメンデーションに商品寿命値(LTV)を組み込むためのアクタクリティカルなRLフレームワーク(RL-LTV)を提案する。コールドスタート項目のITV, GMVにおいて, 相対的に8.67%, 18.03%向上した。
参考スコア（独自算出の注目度）: 29.817934858028615
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recommender system plays a crucial role in modern E-commerce platform. Due to the lack of historical interactions between users and items, cold-start recommendation is a challenging problem. In order to alleviate the cold-start issue, most existing methods introduce content and contextual information as the auxiliary information. Nevertheless, these methods assume the recommended items behave steadily over time, while in a typical E-commerce scenario, items generally have very different performances throughout their life period. In such a situation, it would be beneficial to consider the long-term return from the item perspective, which is usually ignored in conventional methods. Reinforcement learning (RL) naturally fits such a long-term optimization problem, in which the recommender could identify high potential items, proactively allocate more user impressions to boost their growth, therefore improve the multi-period cumulative gains. Inspired by this idea, we model the process as a Partially Observable and Controllable Markov Decision Process (POC-MDP), and propose an actor-critic RL framework (RL-LTV) to incorporate the item lifetime values (LTV) into the recommendation. In RL-LTV, the critic studies historical trajectories of items and predict the future LTV of fresh item, while the actor suggests a score-based policy which maximizes the future LTV expectation. Scores suggested by the actor are then combined with classical ranking scores in a dual-rank framework, therefore the recommendation is balanced with the LTV consideration. Our method outperforms the strong live baseline with a relative improvement of 8.67% and 18.03% on IPV and GMV of cold-start items, on one of the largest E-commerce platform.
Abstract（参考訳）: 現代のEコマースプラットフォームにおいて、レコメンダシステムは重要な役割を果たす。ユーザーとアイテム間の歴史的相互作用が欠如しているため、コールドスタート推奨は難しい問題である。コールドスタート問題を軽減するため、既存の手法では補助情報としてコンテンツや文脈情報を導入している。しかしながら、これらの手法は推奨項目が時間とともに着実に振る舞うと仮定する一方で、典型的なEコマースのシナリオでは、一般的にその期間を通して非常に異なるパフォーマンスを持つ。このような場合、通常従来の方法では無視される項目の観点から長期的なリターンを考えることは有益である。強化学習 (Reinforcement Learning, RL) はこのような長期最適化問題に自然に適合し, 推薦者が高い潜在的な項目を識別し, ユーザインプレッションを積極的に割り当てて成長を促進させ, 多周期累積ゲインを改善する。このアイデアにインスパイアされたプロセスは、部分観測可能かつ制御可能なマルコフ決定プロセス(POC-MDP)としてモデル化され、アイテム寿命値(LTV)を推奨に組み込むアクタークリティカルなRLフレームワーク(RL-LTV)が提案される。 RL-LTVにおいて、批評家はアイテムの歴史的軌跡を研究し、新鮮なアイテムの将来のLTVを予測する一方、アクターは将来のLTV期待を最大化するスコアベースのポリシーを提案する。アクターが提案するスコアは、古典的なランキングスコアとデュアルランクのフレームワークで組み合わせられるため、レコメンデーションはLTVの考慮とバランスがとれる。本手法は,最大規模のEコマースプラットフォームであるITVとGMVの相対的な改善率8.67%と18.03%で,強力なライブベースラインを上回っている。

関連論文リスト

RecGPT Technical Report [57.84251629878726]
本稿では,レコメンデーションパイプラインの中心にユーザの意図を配置する次世代フレームワークRecGPTを提案する。 RecGPTは、大きな言語モデルをユーザ関心のマイニング、アイテム検索、説明生成のキーステージに統合する。オンライン実験では、RecGPTが利害関係者間で一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-07-30T17:55:06Z)
LLM-Enhanced Reranking for Complementary Product Recommendation [1.7149913637404794]
本稿では,Large Language Models (LLMs) を利用したモデルに依存しないアプローチを提案する。当社のアプローチは、補完的な製品レコメンデーションにおける正確性と多様性のバランスを効果的に保ち、少なくとも50%の精度測定値、2%の多様性測定値がデータセット全体を対象とした推奨項目の平均で上昇していることを実証しています。
論文参考訳（メタデータ） (2025-07-22T05:15:45Z)
Research on E-Commerce Long-Tail Product Recommendation Mechanism Based on Large-Scale Language Models [7.792622257477251]
大規模言語モデル(LLM)を用いた製品記述とユーザ行動シーケンスを統合した,新しいロングテール製品レコメンデーション機構を提案する。我々の研究は、今後のeコマースレコメンデーションシステムにおいて、製品コンテンツとユーザ意図を解釈するLLMの可能性を強調します。
論文参考訳（メタデータ） (2025-05-31T19:17:48Z)
Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文参考訳（メタデータ） (2025-05-02T04:01:31Z)
Bake Two Cakes with One Oven: RL for Defusing Popularity Bias and Cold-start in Third-Party Library Recommendations [5.874782446136913]
サードパーティ製ライブラリ(TPL)は現代のソフトウェア開発において不可欠な部分となり、開発者の生産性を高め、市場投入までの時間を短縮している。通常、コラボレーティブ・フィルタリング(CF)に依存しており、レコメンデーションを行う際に2次元のプロジェクト・ライブラリ・マトリックス(一般的にはユーザ・イテム)を利用する。本稿では,TPLレコメンデーションにおける人気バイアスとコールドスタート問題に対処するための強化学習(RL)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2025-04-18T16:17:20Z)
Finding Interest Needle in Popularity Haystack: Improving Retrieval by Modeling Item Exposure [0.0]
本稿では、アイテムの露出確率を明示的にモデル化し、推論時に検索ステージランキングを調整する、露出認識型検索スコアリング手法を提案する。実世界のビデオレコメンデーションシステムにおけるオンラインA/B実験によるアプローチの有効性を検証し、一意に検索されたアイテムの25%増加と、過度な人気コンテンツの優位性の40%低下を実証した。本研究は,検索段階で人気バイアスを緩和するためのスケーラブルでデプロイ可能なソリューションを構築し,バイアス認識のパーソナライゼーションのための新しいパラダイムを提供する。
論文参考訳（メタデータ） (2025-03-31T00:04:01Z)
Prompt Tuning for Item Cold-start Recommendation [21.073232866618554]
コールドスタートフェーズの成功は、アイテムが人気のあるものに移行できるかどうかを決定するため、オンラインレコメンデーションシステムにとって、アイテムコールドスタート問題は不可欠である。自然言語処理(NLP)においてゼロまたは少数ショット問題に対処するために使用される強力なテクニックであるPrompt Learningは、同様の課題に対処するための推奨システムに適応している。本稿では,この2つの問題を同時に解決するために,高価値な正のフィードバック(ピンナクルフィードバック)をプロンプト情報として活用することを提案する。
論文参考訳（メタデータ） (2024-12-24T01:38:19Z)
Online Item Cold-Start Recommendation with Popularity-Aware Meta-Learning [14.83192161148111]
本稿では,アイテムコールドスタート問題に対処するために,Popularity-Aware Meta-learning (PAM) と呼ばれるモデルに依存しない推薦アルゴリズムを提案する。 PAMは、入力データを予め定義されたアイテム人気閾値によって異なるメタ学習タスクに分割する。これらのタスク修正設計により、オフラインメソッドと比較して計算とストレージコストが大幅に削減される。
論文参考訳（メタデータ） (2024-11-18T01:30:34Z)
Language-Model Prior Overcomes Cold-Start Items [14.370472820496802]
RecSysの成長は、デジタル化と、eコマースやビデオストリーミングなどの分野におけるパーソナライズされたコンテンツの必要性による。コンテンツベースのレコメンデータやハイブリッドメソッドといったコールドスタート問題の既存のソリューションは、アイテムメタデータを活用してアイテムの類似性を決定する。本稿では,言語モデル(LM)を用いて項目類似度を推定する,コールドスタートアイテムレコメンデーションのための新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-11-13T22:45:52Z)
CAPRI-FAIR: Integration of Multi-sided Fairness in Contextual POI Recommendation Framework [10.454880693923808]
本稿では,既存モデルにおける提供者と消費者の公正性を含む手法を開発する。実験により,再装飾項目における提供者公正度に対する線形スコアリングモデルが,性能と長期露光のバランスを最大化できることが示されている。
論文参考訳（メタデータ） (2024-06-05T09:57:58Z)
A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。特に、コメント視聴時間の4.13%が大幅に向上した。
論文参考訳（メタデータ） (2024-03-20T13:14:29Z)
Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文参考訳（メタデータ） (2023-05-12T16:54:36Z)
CAViaR: Context Aware Video Recommendations [0.0]
本稿では,低多様性が個々の項目に対するユーザのエンゲージメントに与える影響をモデル化し,多様性を導入する手法を提案する。提案手法は,既存の大規模レコメンデータシステムに簡単にプラグインできるように設計されている。
論文参考訳（メタデータ） (2023-04-17T16:56:23Z)
Deep Interest Highlight Network for Click-Through Rate Prediction in Trigger-Induced Recommendation [15.490873353133363]
本稿では,トリガー誘導レコメンデーション(TIR, Trigger-induced Recommendation)という新たなレコメンデーション問題を提案する。そこで本研究では,クリックスルーレート(CTR)予測のための,DIHN(Deep Interest Highlight Network)と呼ばれる新しい推奨手法を提案する。 1)ユーザインテントネットワーク(UIN)、2)トリガーアイテムに対するユーザの意図を正確に予測するための正確な確率スコアを生成する、2)統合埋め込みモジュール(FEM)、そして、UINからの予測に基づいてトリガーアイテムとターゲットアイテムの埋め込みを適応的に融合する、3)。
論文参考訳（メタデータ） (2022-02-05T08:40:30Z)
PURS: Personalized Unexpected Recommender System for Improving User Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。 3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2021-06-05T01:33:21Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)
Reward Constrained Interactive Recommendation with Natural Language Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文参考訳（メタデータ） (2020-05-04T16:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。