論文の概要: User Tampering in Reinforcement Learning Recommender Systems
- arxiv url: http://arxiv.org/abs/2109.04083v3
- Date: Mon, 24 Jul 2023 14:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 01:29:08.174332
- Title: User Tampering in Reinforcement Learning Recommender Systems
- Title(参考訳): 強化学習推薦システムにおけるユーザ改ざん
- Authors: Charles Evans, Atoosa Kasirzadeh
- Abstract要約: 我々は、強化学習(RL)ベースのレコメンデーションアルゴリズム -- 'ユーザ改ざん' -- で発生する、ユニークな安全性上の懸念を強調します。
ユーザタンパリング(英: user tampering)とは、RLベースのレコメンデータシステムが、長期的なユーザエンゲージメントを最大化するためのポリシーの一環として、その提案を通じてメディアユーザの意見を操作できる状況である。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce new formal methods and provide empirical evidence
to highlight a unique safety concern prevalent in reinforcement learning
(RL)-based recommendation algorithms -- 'user tampering.' User tampering is a
situation where an RL-based recommender system may manipulate a media user's
opinions through its suggestions as part of a policy to maximize long-term user
engagement. We use formal techniques from causal modeling to critically analyze
prevailing solutions proposed in the literature for implementing scalable
RL-based recommendation systems, and we observe that these methods do not
adequately prevent user tampering. Moreover, we evaluate existing mitigation
strategies for reward tampering issues, and show that these methods are
insufficient in addressing the distinct phenomenon of user tampering within the
context of recommendations. We further reinforce our findings with a simulation
study of an RL-based recommendation system focused on the dissemination of
political content. Our study shows that a Q-learning algorithm consistently
learns to exploit its opportunities to polarize simulated users with its early
recommendations in order to have more consistent success with subsequent
recommendations that align with this induced polarization. Our findings
emphasize the necessity for developing safer RL-based recommendation systems
and suggest that achieving such safety would require a fundamental shift in the
design away from the approaches we have seen in the recent literature.
- Abstract(参考訳): 本稿では,新しい形式的手法を導入し,強化学習(rl)に基づくレコメンデーションアルゴリズム「ユーザ改ざん」に共通する一意な安全性を浮き彫りにする実証的エビデンスを提供する。
ユーザタンパリング(英: user tampering)とは、RLベースのレコメンデータシステムが、長期的なユーザエンゲージメントを最大化するためのポリシーの一環として、その提案を通じてメディアユーザの意見を操作できる状況である。
提案手法は,スケーラブルなrlベースレコメンデーションシステムを実現するために文献で提案されている汎用ソリューションを批判的に解析するために,因果モデリングからの形式的手法を用いる。
さらに,報酬テーパー問題に対する既存の緩和策を評価し,レコメンデーションの文脈内でのユーザテーパー現象に対処するには,これらの手法が不十分であることを示す。
政治コンテンツの普及に焦点をあてたRLに基づくレコメンデーションシステムのシミュレーション研究により,我々の知見をさらに強化する。
我々の研究は、Q-learningアルゴリズムが、シミュレーションされたユーザーを早期のレコメンデーションで分極する機会を常に活用して、この誘導分極と整合した後続のレコメンデーションとより一貫した成功をもたらすことを示している。
本研究は,より安全なrlベースのレコメンデーションシステムの構築の必要性を強調し,その安全性を実現するには,最近の文献で見てきたアプローチから設計を根本的に変える必要があることを示唆する。
関連論文リスト
- Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - A Review on Pushing the Limits of Baseline Recommendation Systems with
the integration of Opinion Mining & Information Retrieval Techniques [0.0]
Recommendation Systemsでは、利用者の期待にタイムリーかつ関連性がありながら、コミュニティ内のトレンドアイテムを識別することができる。
より優れた品質のレコメンデーションを達成するために、ディープラーニングの手法が提案されている。
研究者たちは、最も効果的なレコメンデーションを提供するために、標準レコメンデーションシステムの能力を拡大しようと試みている。
論文 参考訳(メタデータ) (2022-05-03T22:13:33Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Knowledge Transfer via Pre-training for Recommendation: A Review and
Prospect [89.91745908462417]
実験による推薦システムに対する事前学習の利点を示す。
事前学習を伴うレコメンデータシステムの今後の研究に向けて,いくつかの将来的な方向性について論じる。
論文 参考訳(メタデータ) (2020-09-19T13:06:27Z) - Reinforcement Learning for Strategic Recommendations [32.73903761398027]
ストラテジックレコメンデーション(SR)とは、知的エージェントがユーザのシーケンシャルな行動や活動を観察し、いつ、どのように相互作用するかを決めて、ユーザとビジネスの両方の長期的な目的を最適化する問題を指す。
Adobeリサーチでは、関心点の推薦、チュートリアルレコメンデーション、マルチメディア編集ソフトウェアにおける次のステップガイダンス、ライフタイムバリューの最適化のための広告レコメンデーションなど、さまざまなユースケースでこのようなシステムを実装してきました。
ユーザのシーケンシャルな振る舞いをモデル化したり、いつ介入するかを決め、ユーザに迷惑をかけずにレコメンデーションを提示したり、オフラインでポリシーを評価するなど、これらのシステム構築には多くの研究課題がある。
論文 参考訳(メタデータ) (2020-09-15T20:45:48Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。