論文の概要: User Tampering in Reinforcement Learning Recommender Systems
- arxiv url: http://arxiv.org/abs/2109.04083v1
- Date: Thu, 9 Sep 2021 07:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 04:35:04.581445
- Title: User Tampering in Reinforcement Learning Recommender Systems
- Title(参考訳): 強化学習推薦システムにおけるユーザ改ざん
- Authors: Charles Evans, Atoosa Kasirzadeh
- Abstract要約: 本稿では、強化学習(RL)に基づくニュースとソーシャルメディアの推薦アルゴリズムにおいて、安全に関する最初の形式化と実証的なデモンストレーションを行う。
本稿では,RLをベースとしたレコメンデータシステムが,メディアユーザの意見や嗜好,信念を,長期的なユーザエンゲージメントを高める政策の一環として,そのレコメンデーションを通じて操作できることを示す。
ユーザエンゲージメントの可観測的な信号とは無関係に,ユーザの改ざんを学べないRLベースのレコメンデータシステムを設計するには,レコメンデータの成功のための基準を作成する必要がある,と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides the first formalisation and empirical demonstration of a
particular safety concern in reinforcement learning (RL)-based news and social
media recommendation algorithms. This safety concern is what we call "user
tampering" -- a phenomenon whereby an RL-based recommender system may
manipulate a media user's opinions, preferences and beliefs via its
recommendations as part of a policy to increase long-term user engagement. We
provide a simulation study of a media recommendation problem constrained to the
recommendation of political content, and demonstrate that a Q-learning
algorithm consistently learns to exploit its opportunities to 'polarise'
simulated 'users' with its early recommendations in order to have more
consistent success with later recommendations catering to that polarisation.
Finally, we argue that given our findings, designing an RL-based recommender
system which cannot learn to exploit user tampering requires making the metric
for the recommender's success independent of observable signals of user
engagement, and thus that a media recommendation system built solely with RL is
necessarily either unsafe, or almost certainly commercially unviable.
- Abstract(参考訳): 本稿では,強化学習(rl)に基づくニュースとソーシャルメディアのレコメンデーションアルゴリズムにおける,特定の安全性に関する最初の形式化と実証的な実証を行う。
この安全上の懸念は、私たちが「ユーザー改ざん」と呼んでいるもので、RLベースのレコメンデーションシステムは、長期的なユーザーエンゲージメントを高める政策の一環として、メディアユーザーの意見や好み、信念をそのレコメンデーションを通じて操作できる現象である。
本稿では,政治内容の推薦に制約のあるメディア推薦問題のシミュレーション研究を行い,q-learningアルゴリズムが「ユーザ」を「ポーラライズ」する機会を常に活用し,その「ユーザ」を初期の推奨と結びつけることで,後続の推奨とより一貫した成功を両立させることを実証する。
最後に,RLをベースとしたレコメンデーションシステムの設計には,ユーザエンゲージメントの観測可能な信号とは無関係に,レコメンデーションの成功の基準を作る必要があり,従ってRLのみで構築されたメディアレコメンデーションシステムは必ずしも安全でないか,あるいはほぼ商業的に不可能である。
関連論文リスト
- Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - A Review on Pushing the Limits of Baseline Recommendation Systems with
the integration of Opinion Mining & Information Retrieval Techniques [0.0]
Recommendation Systemsでは、利用者の期待にタイムリーかつ関連性がありながら、コミュニティ内のトレンドアイテムを識別することができる。
より優れた品質のレコメンデーションを達成するために、ディープラーニングの手法が提案されている。
研究者たちは、最も効果的なレコメンデーションを提供するために、標準レコメンデーションシステムの能力を拡大しようと試みている。
論文 参考訳(メタデータ) (2022-05-03T22:13:33Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Knowledge Transfer via Pre-training for Recommendation: A Review and
Prospect [89.91745908462417]
実験による推薦システムに対する事前学習の利点を示す。
事前学習を伴うレコメンデータシステムの今後の研究に向けて,いくつかの将来的な方向性について論じる。
論文 参考訳(メタデータ) (2020-09-19T13:06:27Z) - Reinforcement Learning for Strategic Recommendations [32.73903761398027]
ストラテジックレコメンデーション(SR)とは、知的エージェントがユーザのシーケンシャルな行動や活動を観察し、いつ、どのように相互作用するかを決めて、ユーザとビジネスの両方の長期的な目的を最適化する問題を指す。
Adobeリサーチでは、関心点の推薦、チュートリアルレコメンデーション、マルチメディア編集ソフトウェアにおける次のステップガイダンス、ライフタイムバリューの最適化のための広告レコメンデーションなど、さまざまなユースケースでこのようなシステムを実装してきました。
ユーザのシーケンシャルな振る舞いをモデル化したり、いつ介入するかを決め、ユーザに迷惑をかけずにレコメンデーションを提示したり、オフラインでポリシーを評価するなど、これらのシステム構築には多くの研究課題がある。
論文 参考訳(メタデータ) (2020-09-15T20:45:48Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。