論文の概要: Breaking the Cold-Start Barrier: Reinforcement Learning with Double and Dueling DQNs
- arxiv url: http://arxiv.org/abs/2508.21259v1
- Date: Thu, 28 Aug 2025 23:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.899821
- Title: Breaking the Cold-Start Barrier: Reinforcement Learning with Double and Dueling DQNs
- Title(参考訳): コールドスタートバリアを破る:DQNとデュエルによる強化学習
- Authors: Minda Zhao,
- Abstract要約: 本稿では,Double and Dueling Deep Q-Networks (DQN) を用いた強化学習手法を提案する。
これらの高度なDQN変異を行列因数分解モデルに統合することにより、大規模なeコマースデータセット上での優れた性能を実現する。
- 参考スコア(独自算出の注目度): 4.031998949939877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems struggle to provide accurate suggestions to new users with limited interaction history, a challenge known as the cold-user problem. This paper proposes a reinforcement learning approach using Double and Dueling Deep Q-Networks (DQN) to dynamically learn user preferences from sparse feedback, enhancing recommendation accuracy without relying on sensitive demographic data. By integrating these advanced DQN variants with a matrix factorization model, we achieve superior performance on a large e-commerce dataset compared to traditional methods like popularity-based and active learning strategies. Experimental results show that our method, particularly Dueling DQN, reduces Root Mean Square Error (RMSE) for cold users, offering an effective solution for privacy-constrained environments.
- Abstract(参考訳): レコメンダシステムは、コールドユーザー問題として知られる、インタラクション履歴の制限のある新規ユーザに正確な提案を提供するのに苦労している。
本稿では,Double and Dueling Deep Q-Networks (DQN) を用いた強化学習手法を提案する。
これらの高度なDQN変異を行列分解モデルに統合することにより、人気ベースやアクティブラーニング戦略といった従来の手法と比較して、大規模なeコマースデータセット上での優れたパフォーマンスを実現する。
実験結果から,本手法,特にDQNの適用により,寒冷なユーザに対するRoot Mean Square Error (RMSE) が削減され,プライバシに制約のある環境に対する効果的なソリューションが提供されることがわかった。
関連論文リスト
- Pre-training for Recommendation Unlearning [14.514770044236375]
UnlearnRecはモデルに依存しない事前学習パラダイムであり、効率的な未学習操作のためのシステムを準備している。
本手法は,再学習手法に比べて10倍以上の高速化を実現した。
論文 参考訳(メタデータ) (2025-05-28T17:57:11Z) - Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - RESUS: Warm-Up Cold Users via Meta-Learning Residual User Preferences in
CTR Prediction [14.807495564177252]
コールドユーザーに対するCTR(Click-Through Rate)予測は、レコメンデーションシステムにおいて難しい課題である。
本稿では,グローバルな嗜好知識の学習を,個々のユーザの残留嗜好の学習から切り離す,RESUSという新しい,効率的なアプローチを提案する。
本手法は, コールドユーザに対するCTR予測精度の向上に有効であり, 各種最先端手法と比較して有効である。
論文 参考訳(メタデータ) (2022-10-28T11:57:58Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Sparsity Regularization For Cold-Start Recommendation [7.848143873095096]
ユーザ人口統計とユーザ嗜好を組み合わせることで,ユーザベクタのための新しい表現を導入する。
我々は,スパースユーザ・購入行動を利用したコールド・スタート・レコメンデーションのための新しいスパース・逆モデルSRLGANを開発した。
SRLGANを2つの一般的なデータセットで評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-01-26T02:28:08Z) - Learning to Learn a Cold-start Sequential Recommender [70.5692886883067]
コールドスタート勧告は、現代のオンラインアプリケーションにおいて緊急の問題である。
メタ学習に基づくコールドスタートシーケンシャルレコメンデーションフレームワークMetaCSRを提案する。
MetaCSRは、通常のユーザの行動から共通のパターンを学ぶ能力を持っている。
論文 参考訳(メタデータ) (2021-10-18T08:11:24Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。