論文の概要: Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.04875v1
- Date: Thu, 7 Mar 2024 19:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:45:41.599354
- Title: Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning
- Title(参考訳): gptrecとbeyond-accuracy目標の連携と強化学習
- Authors: Aleksandr Petrov and Craig Macdonald
- Abstract要約: GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
- 参考スコア(独自算出の注目度): 67.71952251641545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptations of Transformer models, such as BERT4Rec and SASRec, achieve
state-of-the-art performance in the sequential recommendation task according to
accuracy-based metrics, such as NDCG. These models treat items as tokens and
then utilise a score-and-rank approach (Top-K strategy), where the model first
computes item scores and then ranks them according to this score. While this
approach works well for accuracy-based metrics, it is hard to use it for
optimising more complex beyond-accuracy metrics such as diversity. Recently,
the GPTRec model, which uses a different Next-K strategy, has been proposed as
an alternative to the Top-K models. In contrast with traditional Top-K
recommendations, Next-K generates recommendations item-by-item and, therefore,
can account for complex item-to-item interdependencies important for the
beyond-accuracy measures. However, the original GPTRec paper focused only on
accuracy in experiments and needed to address how to optimise the model for
complex beyond-accuracy metrics. Indeed, training GPTRec for beyond-accuracy
goals is challenging because the interaction training data available for
training recommender systems typically needs to be aligned with beyond-accuracy
recommendation goals. To solve the misalignment problem, we train GPTRec using
a 2-stage approach: in the first stage, we use a teacher-student approach to
train GPTRec, mimicking the behaviour of traditional Top-K models; in the
second stage, we use Reinforcement Learning to align the model for
beyond-accuracy goals. In particular, we experiment with increasing
recommendation diversity and reducing popularity bias. Our experiments on two
datasets show that in 3 out of 4 cases, GPTRec's Next-K generation approach
offers a better tradeoff between accuracy and secondary metrics than classic
greedy re-ranking techniques.
- Abstract(参考訳): BERT4RecやSASRecのようなトランスフォーマーモデルの適応は、NDCGのような精度に基づくメトリクスに従ってシーケンシャルレコメンデーションタスクにおける最先端のパフォーマンスを達成する。
これらのモデルはアイテムをトークンとして扱い、次にスコアとランクのアプローチ(Top-K戦略)を利用する。
このアプローチは精度ベースのメトリクスではうまく機能するが、多様性のようなより複雑な超精度メトリクスを最適化するために使用するのは難しい。
近年,Top-Kモデルの代替として,Next-K戦略を用いたGPTRecモデルが提案されている。
従来のTop-Kレコメンデーションとは対照的に、Next-Kはアイテム単位のレコメンデーションを生成し、したがって、超精度対策において重要な複雑なアイテム間相互依存性を説明できる。
しかし、GPTRecの論文は実験における精度のみに焦点をあて、複雑な超精度メトリクスに対してモデルを最適化する方法に取り組む必要があった。
実際、レコメンダシステムで利用可能なインタラクショントレーニングデータは、通常、レコメンデーション目標と一致する必要があるため、正確でない目標のためのgptrecのトレーニングは困難である。
2段階のアプローチを用いてGPTRecを訓練する。第1段階では,従来のTop-Kモデルの動作を模倣したGPTRecを教師が学習し,第2段階では強化学習を用いて,モデルが精度以上の目標を達成するように調整する。
特に,レコメンデーションの多様性の増大と人気バイアスの低減を試みている。
2つのデータセットに対する実験により,GPTRecのNext-K生成手法は,古典的なグリーディ・リグレード手法よりも精度とセカンダリメトリクスのトレードオフが優れていることが示された。
関連論文リスト
- Are We Really Achieving Better Beyond-Accuracy Performance in Next Basket Recommendation? [57.91114305844153]
次のバスケットレコメンデーション(NBR)は、ますます注目を集めている特別なタイプのシーケンシャルレコメンデーションである。
NBRに関する最近の研究は、繰り返し項目を推奨することと項目を探索することの間に大きなパフォーマンス差が見つかった。
本稿では,繰り返しアイテムを扱い,個別にアイテムを探索する2段階反復探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T09:59:35Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - GROOT: Corrective Reward Optimization for Generative Sequential Labeling [10.306943706927004]
テキストシーケンスの生成的リワード最適化のためのフレームワークであるGROOTを提案する。
GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。
4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
論文 参考訳(メタデータ) (2022-09-29T11:35:47Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Adaptive Consistency Regularization for Semi-Supervised Transfer
Learning [31.66745229673066]
我々は,半教師付き学習と移動学習を共同で検討し,より実践的で競争的なパラダイムへと導いた。
事前学習した重みとラベルなしの目標サンプルの両方の価値をよりよく活用するために、適応整合正則化を導入する。
提案手法は,Pseudo Label,Mean Teacher,MixMatchといった,最先端の半教師付き学習技術より優れた適応整合性正規化を実現する。
論文 参考訳(メタデータ) (2021-03-03T05:46:39Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。