論文の概要: User Tampering in Reinforcement Learning Recommender Systems
- arxiv url: http://arxiv.org/abs/2109.04083v1
- Date: Thu, 9 Sep 2021 07:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 04:35:04.581445
- Title: User Tampering in Reinforcement Learning Recommender Systems
- Title(参考訳): 強化学習推薦システムにおけるユーザ改ざん
- Authors: Charles Evans, Atoosa Kasirzadeh
- Abstract要約: 本稿では、強化学習(RL)に基づくニュースとソーシャルメディアの推薦アルゴリズムにおいて、安全に関する最初の形式化と実証的なデモンストレーションを行う。
本稿では,RLをベースとしたレコメンデータシステムが,メディアユーザの意見や嗜好,信念を,長期的なユーザエンゲージメントを高める政策の一環として,そのレコメンデーションを通じて操作できることを示す。
ユーザエンゲージメントの可観測的な信号とは無関係に,ユーザの改ざんを学べないRLベースのレコメンデータシステムを設計するには,レコメンデータの成功のための基準を作成する必要がある,と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides the first formalisation and empirical demonstration of a
particular safety concern in reinforcement learning (RL)-based news and social
media recommendation algorithms. This safety concern is what we call "user
tampering" -- a phenomenon whereby an RL-based recommender system may
manipulate a media user's opinions, preferences and beliefs via its
recommendations as part of a policy to increase long-term user engagement. We
provide a simulation study of a media recommendation problem constrained to the
recommendation of political content, and demonstrate that a Q-learning
algorithm consistently learns to exploit its opportunities to 'polarise'
simulated 'users' with its early recommendations in order to have more
consistent success with later recommendations catering to that polarisation.
Finally, we argue that given our findings, designing an RL-based recommender
system which cannot learn to exploit user tampering requires making the metric
for the recommender's success independent of observable signals of user
engagement, and thus that a media recommendation system built solely with RL is
necessarily either unsafe, or almost certainly commercially unviable.
- Abstract(参考訳): 本稿では,強化学習(rl)に基づくニュースとソーシャルメディアのレコメンデーションアルゴリズムにおける,特定の安全性に関する最初の形式化と実証的な実証を行う。
この安全上の懸念は、私たちが「ユーザー改ざん」と呼んでいるもので、RLベースのレコメンデーションシステムは、長期的なユーザーエンゲージメントを高める政策の一環として、メディアユーザーの意見や好み、信念をそのレコメンデーションを通じて操作できる現象である。
本稿では,政治内容の推薦に制約のあるメディア推薦問題のシミュレーション研究を行い,q-learningアルゴリズムが「ユーザ」を「ポーラライズ」する機会を常に活用し,その「ユーザ」を初期の推奨と結びつけることで,後続の推奨とより一貫した成功を両立させることを実証する。
最後に,RLをベースとしたレコメンデーションシステムの設計には,ユーザエンゲージメントの観測可能な信号とは無関係に,レコメンデーションの成功の基準を作る必要があり,従ってRLのみで構築されたメディアレコメンデーションシステムは必ずしも安全でないか,あるいはほぼ商業的に不可能である。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Impression-Aware Recommender Systems [53.48892326556546]
本稿ではインプレッションを用いたレコメンデーションシステムに関する体系的な文献レビューを行う。
本稿では,印象型レコメンデーションシステムと,印象型レコメンデーションシステムという,パーソナライズされたレコメンデーションのための新しいパラダイムを論じる。
論文 参考訳(メタデータ) (2023-08-15T16:16:02Z) - Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - A Review on Pushing the Limits of Baseline Recommendation Systems with
the integration of Opinion Mining & Information Retrieval Techniques [0.0]
Recommendation Systemsでは、利用者の期待にタイムリーかつ関連性がありながら、コミュニティ内のトレンドアイテムを識別することができる。
より優れた品質のレコメンデーションを達成するために、ディープラーニングの手法が提案されている。
研究者たちは、最も効果的なレコメンデーションを提供するために、標準レコメンデーションシステムの能力を拡大しようと試みている。
論文 参考訳(メタデータ) (2022-05-03T22:13:33Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Reinforcement Learning for Strategic Recommendations [32.73903761398027]
ストラテジックレコメンデーション(SR)とは、知的エージェントがユーザのシーケンシャルな行動や活動を観察し、いつ、どのように相互作用するかを決めて、ユーザとビジネスの両方の長期的な目的を最適化する問題を指す。
Adobeリサーチでは、関心点の推薦、チュートリアルレコメンデーション、マルチメディア編集ソフトウェアにおける次のステップガイダンス、ライフタイムバリューの最適化のための広告レコメンデーションなど、さまざまなユースケースでこのようなシステムを実装してきました。
ユーザのシーケンシャルな振る舞いをモデル化したり、いつ介入するかを決め、ユーザに迷惑をかけずにレコメンデーションを提示したり、オフラインでポリシーを評価するなど、これらのシステム構築には多くの研究課題がある。
論文 参考訳(メタデータ) (2020-09-15T20:45:48Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。