論文の概要: Modelling the Recommender Alignment Problem
- arxiv url: http://arxiv.org/abs/2208.12299v1
- Date: Thu, 25 Aug 2022 18:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:17:52.935635
- Title: Modelling the Recommender Alignment Problem
- Title(参考訳): Recommenderアライメント問題のモデル化
- Authors: Francisco Carvalho
- Abstract要約: この研究は、レコメンデーションシステムに対する報酬関数のエンドツーエンドの研究がどのように行われるかを明らかにすることを目的としている。
おもちゃの環境におけるグラフのダイナミクスを制御して報酬関数を最適化するリコメンデーターポリシーを学習する。
トレーニングされたレコメンダが環境に与える影響に基づいて、エンゲージメントの最大化は一般的に、アライメントされたレコメンダよりも悪い結果をもたらすが、常にではない、と結論付けます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommender systems (RS) mediate human experience online. Most RS act to
optimize metrics that are imperfectly aligned with the best-interest of users
but are easy to measure, like ad-clicks and user engagement. This has resulted
in a host of hard-to-measure side-effects: political polarization, addiction,
fake news. RS design faces a recommender alignment problem: that of aligning
recommendations with the goals of users, system designers, and society as a
whole. But how do we test and compare potential solutions to align RS? Their
massive scale makes them costly and risky to test in deployment. We synthesized
a simple abstract modelling framework to guide future work.
To illustrate it, we construct a toy experiment where we ask: "How can we
evaluate the consequences of using user retention as a reward function?" To
answer the question, we learn recommender policies that optimize reward
functions by controlling graph dynamics on a toy environment. Based on the
effects that trained recommenders have on their environment, we conclude that
engagement maximizers generally lead to worse outcomes than aligned
recommenders but not always. After learning, we examine competition between RS
as a potential solution to RS alignment. We find that it generally makes our
toy-society better-off than it would be under the absence of recommendation or
engagement maximizers.
In this work, we aimed for a broad scope, touching superficially on many
different points to shed light on how an end-to-end study of reward functions
for recommender systems might be done. Recommender alignment is a pressing and
important problem. Attempted solutions are sure to have far-reaching impacts.
Here, we take a first step in developing methods to evaluating and comparing
solutions with respect to their impacts on society.
- Abstract(参考訳): Recommender System (RS)は、オンラインの人間体験を仲介する。
ほとんどのrsは、広告クリックやユーザーのエンゲージメントなど、最も興味のあるユーザーと完全に一致していないが、測定が容易なメトリクスを最適化する。
この結果、政治的分極、中毒、フェイクニュースといった、対策の難しい副作用が生まれました。
rsデザインは、レコメンデーションをユーザー、システムデザイナー、社会全体の目標に合わせるという、レコメンデーションアライメントの問題に直面している。
しかし、どのようにして潜在的なソリューションをテストし、比較してrsを調整するのか?
大規模な運用では、テストにコストとリスクが伴います。
今後の課題を導くために,抽象的モデリングフレームワークを合成した。
それを説明するために、我々は「ユーザ保持を報酬関数として使う結果をどのように評価できるか?」と質問するおもちゃの実験を構築した。
この質問に答えるために、おもちゃの環境でグラフのダイナミクスを制御することで報奨機能を最適化するレコメンダポリシーを学習する。
トレーニングされたレコメンダが環境に与える影響に基づいて、エンゲージメントの最大化は一般的に、アラインされたレコメンダよりも悪い結果をもたらすが、必ずしもそうではないと結論づける。
学習後、rs間の競合をrsアライメントの潜在的な解決策として検討する。
一般的には、推奨やエンゲージメントの最大化の欠如よりも、私たちのおもちゃ社会をより良いものにしています。
本研究では,様々な点を表面的に触れて,レコメンダシステムに対する報酬関数のエンドツーエンド研究の実施方法を明らかにすることを目的としている。
レコメンダアライメントは、差し迫った重要な問題である。
試行錯誤されたソリューションは、間違いなく大きな影響を与えます。
本稿では,社会への影響について,ソリューションの評価と比較を行う手法の開発に向けて,第一歩を踏み出します。
関連論文リスト
- Harm Mitigation in Recommender Systems under User Preference Dynamics [16.213153879446796]
本稿では,レコメンデーション,ユーザ関心,有害コンテンツとの相互作用を考慮したレコメンデーションシステムについて考察する。
クリックスルー率(CTR)の最大化と害軽減のトレードオフを確立するためのレコメンデーションポリシーを模索する。
論文 参考訳(メタデータ) (2024-06-14T09:52:47Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - RAH! RecSys-Assistant-Human: A Human-Centered Recommendation Framework
with LLM Agents [30.250555783628762]
この研究は、これらの問題に対処することは単にレコメンダシステムの責任ではないと主張している。
本稿では,RAH Recommenderシステム,Assistant,Humanフレームワークを紹介する。
私たちのコントリビューションは、さまざまなレコメンデーションモデルと効果的に連携する、人間中心のレコメンデーションフレームワークを提供します。
論文 参考訳(メタデータ) (2023-08-19T04:46:01Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Meta Policy Learning for Cold-Start Conversational Recommendation [71.13044166814186]
メタ強化学習を用いて冷間開始ユーザを対象としたCRSポリシー学習について検討する。
政策適応を容易にするために,3つの相乗成分を設計する。
論文 参考訳(メタデータ) (2022-05-24T05:06:52Z) - ELIXIR: Learning from User Feedback on Explanations to Improve
Recommender Models [26.11434743591804]
説明に対するユーザフィードバックをユーザ好みのペアワイズ学習に活用する,ループ内人間フレームワーク ELIXIR を考案した。
elixirは、レコメンデーションと説明のペアに対するフィードバックを活用して、ユーザ固有の潜在選好ベクトルを学習する。
このフレームワークは、ランダムウォークとリスタートによる一般化グラフレコメンデーションを用いてインスタンス化される。
論文 参考訳(メタデータ) (2021-02-15T13:43:49Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Optimizing Long-term Social Welfare in Recommender Systems: A
Constrained Matching Approach [36.54379845220444]
一定レベルのユーザエンゲージメントを受けない限り、コンテンツプロバイダが存続できないような設定について検討する。
我々のモデルは、十分に多様な実現可能な提供者によって支えられる最大限の社会福祉と平衡に達することを保証します。
我々は、これらの結果が実用的意味でより公平であると主張する、ユーザの後悔と公平性のさまざまな概念に関連性を引き出す。
論文 参考訳(メタデータ) (2020-07-31T22:40:47Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。