論文の概要: Compressive Features in Offline Reinforcement Learning for Recommender
Systems
- arxiv url: http://arxiv.org/abs/2111.08817v1
- Date: Tue, 16 Nov 2021 22:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 00:34:47.904303
- Title: Compressive Features in Offline Reinforcement Learning for Recommender
Systems
- Title(参考訳): レコメンダシステムのためのオフライン強化学習における圧縮的特徴
- Authors: Hung Nguyen, Minh Nguyen, Long Pham, Jennifer Adorno Nieves
- Abstract要約: 我々は,ゲーム提供者の収益を最大化するために,インタラクティブな行動に基づく潜在的アイテムをプレイヤーに提案するゲームレコメンデータシステムを開発する。
我々のアプローチは強化学習に基づく技術に基づいており、IEEE Big Data Cupチャレンジで公開されているオフラインデータセットでトレーニングされています。
- 参考スコア(独自算出の注目度): 2.3513645401551333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we develop a recommender system for a game that suggests
potential items to players based on their interactive behaviors to maximize
revenue for the game provider. Our approach is built on a reinforcement
learning-based technique and is trained on an offline data set that is publicly
available on an IEEE Big Data Cup challenge. The limitation of the offline data
set and the curse of high dimensionality pose significant obstacles to solving
this problem. Our proposed method focuses on improving the total rewards and
performance by tackling these main difficulties. More specifically, we utilized
sparse PCA to extract important features of user behaviors. Our
Q-learning-based system is then trained from the processed offline data set. To
exploit all possible information from the provided data set, we cluster user
features to different groups and build an independent Q-table for each group.
Furthermore, to tackle the challenge of unknown formula for evaluation metrics,
we design a metric to self-evaluate our system's performance based on the
potential value the game provider might achieve and a small collection of
actual evaluation metrics that we obtain from the live scoring environment. Our
experiments show that our proposed metric is consistent with the results
published by the challenge organizers. We have implemented the proposed
training pipeline, and the results show that our method outperforms current
state-of-the-art methods in terms of both total rewards and training speed. By
addressing the main challenges and leveraging the state-of-the-art techniques,
we have achieved the best public leaderboard result in the challenge.
Furthermore, our proposed method achieved an estimated score of approximately
20% better and can be trained faster by 30 times than the best of the current
state-of-the-art methods.
- Abstract(参考訳): 本稿では,ゲーム提供者の収益を最大化するために,インタラクティブな行動に基づく潜在的アイテムをプレイヤーに提案するゲーム推薦システムを開発する。
我々のアプローチは強化学習に基づく技術に基づいており、IEEE Big Data Cupチャレンジで公開されているオフラインデータセットでトレーニングされています。
オフラインデータセットの制限と高次元の呪いは、この問題を解決する上で大きな障害となる。
提案手法は,これらの主な課題に対処することで,報酬と性能の向上に重点を置いている。
具体的には,スパースPCAを用いてユーザ行動の重要な特徴を抽出した。
Q-learningベースのシステムは、処理されたオフラインデータセットからトレーニングされる。
提供されたデータセットから可能なすべての情報を活用するために、ユーザ機能を異なるグループにクラスタリングし、各グループに独立したqテーブルを構築します。
さらに,評価指標に対する未知の公式の課題に取り組むために,ゲーム提供者が達成できる潜在的な価値と,実際のスコアリング環境から得られる少数の評価指標に基づいて,システムの性能を自己評価するための指標をデザインする。
実験の結果,提案手法は課題主催者による結果と一致していることがわかった。
提案するトレーニングパイプラインを実装し,本手法が全報酬とトレーニング速度の両面で,現在の最先端手法を上回っていることを示す。
主な課題に対処し、最先端の技術を活用することで、この課題における最高の公開リーダボードを実現したのです。
さらに,提案手法は推定スコアが約20%向上し,現在の最先端手法の30倍の速さでトレーニングが可能となった。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - A Human-Centered Approach for Improving Supervised Learning [0.44378250612683995]
本稿では、パフォーマンス、時間、リソースの制約のバランスをとる方法を示す。
この研究のもう1つの目標は、人間中心のアプローチを用いて、エンサンブルスをより説明しやすく、理解しやすくすることである。
論文 参考訳(メタデータ) (2024-10-14T10:27:14Z) - Active Learning to Guide Labeling Efforts for Question Difficulty Estimation [1.0514231683620516]
トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。
この研究は、教師付きヒューマン・イン・ザ・ループアプローチであるQDEのアクティブ・ラーニングを探求することで、研究ギャップを埋める。
PowerVarianceの取得によるアクティブな学習は、トレーニングデータの10%だけをラベル付けした後、完全に教師されたモデルに近いパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2024-09-14T02:02:42Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Embedding in Recommender Systems: A Survey [67.67966158305603]
重要な側面は、ユーザやアイテムIDといった高次元の離散的な特徴を低次元連続ベクトルに包含する技法である。
埋め込み技術の適用は複雑なエンティティ関係を捉え、かなりの研究を刺激している。
この調査では、協調フィルタリング、自己教師付き学習、グラフベースのテクニックなどの埋め込み手法を取り上げている。
論文 参考訳(メタデータ) (2023-10-28T06:31:06Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Evaluating Membership Inference Through Adversarial Robustness [6.983991370116041]
本稿では,敵の強靭性に基づくメンバシップ推論攻撃の強化手法を提案する。
提案手法をFashion-MNIST, CIFAR-10, CIFAR-100の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-05-14T06:48:47Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。