論文の概要: UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User
Experiences in Recommender Systems
- arxiv url: http://arxiv.org/abs/2401.09034v1
- Date: Wed, 17 Jan 2024 08:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:38:18.940997
- Title: UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User
Experiences in Recommender Systems
- Title(参考訳): UOEP:Recommenderシステムにおける長期ユーザーエクスペリエンス向上のためのユーザ指向探索ポリシー
- Authors: Changshuo Zhang, Sirui Chen, Xiao Zhang, Sunhao Dai, Weijie Yu, Jun Xu
- Abstract要約: 強化学習(Reinforcement Learning, RL)は,レコメンデーションシステムにおけるユーザの長期体験向上の要因となっている。
現代のレコメンデータシステムは、何千万もの項目で異なるユーザ行動パターンを示しており、探索の難しさを高めている。
ユーザグループ間のきめ細かい探索を容易にする新しいアプローチであるユーザ指向探索ポリシー(UOEP)を提案する。
- 参考スコア(独自算出の注目度): 8.09029134061999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has gained traction for enhancing user long-term
experiences in recommender systems by effectively exploring users' interests.
However, modern recommender systems exhibit distinct user behavioral patterns
among tens of millions of items, which increases the difficulty of exploration.
For example, user behaviors with different activity levels require varying
intensity of exploration, while previous studies often overlook this aspect and
apply a uniform exploration strategy to all users, which ultimately hurts user
experiences in the long run. To address these challenges, we propose
User-Oriented Exploration Policy (UOEP), a novel approach facilitating
fine-grained exploration among user groups. We first construct a distributional
critic which allows policy optimization under varying quantile levels of
cumulative reward feedbacks from users, representing user groups with varying
activity levels. Guided by this critic, we devise a population of distinct
actors aimed at effective and fine-grained exploration within its respective
user group. To simultaneously enhance diversity and stability during the
exploration process, we further introduce a population-level diversity
regularization term and a supervision module. Experimental results on public
recommendation datasets demonstrate that our approach outperforms all other
baselines in terms of long-term performance, validating its user-oriented
exploration effectiveness. Meanwhile, further analyses reveal our approach's
benefits of improved performance for low-activity users as well as increased
fairness among users.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 利用者の興味を効果的に探求することで, 推薦システムにおける長期体験の向上に寄与している。
しかし、現代のレコメンデータシステムでは、何千万もの項目で異なるユーザ行動パターンが示されており、探索の難しさが増している。
例えば、異なるアクティビティレベルを持つユーザの振る舞いは、さまざまな調査の強度を必要とするが、以前の研究では、この側面を見落とし、すべてのユーザに対して統一的な探索戦略を適用することが多かった。
これらの課題に対処するために,ユーザグループ間のきめ細かい探索を容易にする新しいアプローチであるユーザ指向探索ポリシー(UOEP)を提案する。
まず,ユーザからの累積報酬フィードバックの量的レベルが変化し,行動レベルが変化したユーザグループを代表して,ポリシーの最適化を可能にする分散批評家を構築した。
この批評家に導かれ、各ユーザーグループ内の効果的かつ詳細な探索を目的とした、異なる俳優の集団を考案する。
調査過程での多様性と安定性を同時に向上するため,人口レベルの多様性規則化用語と監督モジュールを導入する。
パブリックレコメンデーションデータセットによる実験結果から,我々のアプローチは長期的パフォーマンスにおいて他のすべてのベースラインよりも優れており,ユーザ指向探索の有効性が検証されている。
一方,低能率ユーザに対するパフォーマンス向上によるアプローチのメリットと,ユーザ間の公平性の向上が,さらなる分析によって明らかにされている。
関連論文リスト
- Unveiling User Satisfaction and Creator Productivity Trade-Offs in Recommendation Platforms [68.51708490104687]
調査力の低い純粋に関連性の高い政策は、短期的ユーザの満足度を高めるが、コンテンツプールの長期的豊かさを損なうことを示す。
調査の結果,プラットフォーム上でのユーザの即時満足度と全体のコンテンツ生産との間には,根本的なトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2024-10-31T07:19:22Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Negative Sampling in Recommendation: A Survey and Future Directions [43.11318243903388]
ネガティブサンプリングは、ユーザの行動に固有の真のネガティブな側面を明らかにすることに熟練している。
我々は、既存のネガティブサンプリング戦略に関する広範な文献レビューを行い、推奨する。
多様なレコメンデーションシナリオにおいて、最適化されたネガティブサンプリング戦略の洞察について詳述する。
論文 参考訳(メタデータ) (2024-09-11T12:48:52Z) - Measuring Strategization in Recommendation: Users Adapt Their Behavior to Shape Future Content [66.71102704873185]
実験と調査を行うことで,ユーザストラテジゼーションの試行を行う。
参加者の居住時間や「いいね!」の使用など,結果指標間での戦略化の強い証拠を見出す。
この結果から,プラットフォームはアルゴリズムがユーザの行動に与える影響を無視できないことが示唆された。
論文 参考訳(メタデータ) (2024-05-09T07:36:08Z) - PIE: Personalized Interest Exploration for Large-Scale Recommender
Systems [0.0]
これらの課題に対処するために,大規模レコメンデータシステムにおける探索のためのフレームワークを提案する。
我々の方法論は、最小限の修正で既存の大規模レコメンデータシステムに容易に統合できる。
私たちの仕事は、何十億ものユーザーを対象とする人気のビデオ発見および共有プラットフォームであるFacebook Watchで運用されている。
論文 参考訳(メタデータ) (2023-04-13T22:25:09Z) - PARSRec: Explainable Personalized Attention-fused Recurrent Sequential
Recommendation Using Session Partial Actions [0.5801044612920815]
共通のパターンと個人の行動に依存したアーキテクチャを提案する。
Nielsen Consumer Panel データセットの実証結果は,提案手法が最大27.9%のパフォーマンス向上を達成したことを示唆している。
論文 参考訳(メタデータ) (2022-09-16T12:07:43Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - An Empirical analysis on Transparent Algorithmic Exploration in
Recommender Systems [17.91522677924348]
提案手法は, 従来のミックスイン手法と比較し, 従来の評価手法と比較する。
以上の結果から,ユーザからのフィードバックは,インターフェースによる探索のために選択された項目の方がはるかに多いことが示唆された。
論文 参考訳(メタデータ) (2021-07-31T05:08:29Z) - Exploration-Exploitation Motivated Variational Auto-Encoder for
Recommender Systems [1.52292571922932]
協調フィルタリングにおいて,エクスプロビテーション探索型変分自動エンコーダ(XploVAE)を導入する。
パーソナライズされたレコメンデーションを容易にするために、観測されたユーザとイテムのインタラクションを1次にキャプチャする、ユーザ固有のサブグラフを構築した。
階層的潜在空間モデルを用いて、各ユーザに対するパーソナライズされたアイテム埋め込みと、全ユーザサブグラフの人口分布を学習する。
論文 参考訳(メタデータ) (2020-06-05T17:37:46Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。