論文の概要: Incentivizing Exploration in Linear Bandits under Information Gap
- arxiv url: http://arxiv.org/abs/2104.03860v1
- Date: Thu, 8 Apr 2021 16:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 12:58:23.723070
- Title: Incentivizing Exploration in Linear Bandits under Information Gap
- Title(参考訳): 情報ギャップ下における線形バンディットのインセンティブ探索
- Authors: Huazheng Wang, Haifeng Xu, Chuanhao Li, Zhiyuan Liu, Hongning Wang
- Abstract要約: 線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
- 参考スコア(独自算出の注目度): 50.220743323750035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of incentivizing exploration for myopic users in linear
bandits, where the users tend to exploit arm with the highest predicted reward
instead of exploring. In order to maximize the long-term reward, the system
offers compensation to incentivize the users to pull the exploratory arms, with
the goal of balancing the trade-off among exploitation, exploration and
compensation. We consider a new and practically motivated setting where the
context features observed by the user are more informative than those used by
the system, e.g., features based on users' private information are not
accessible by the system. We propose a new method to incentivize exploration
under such information gap, and prove that the method achieves both sublinear
regret and sublinear compensation. We theoretical and empirically analyze the
added compensation due to the information gap, compared with the case that the
system has access to the same context features as the user, i.e., without
information gap. We also provide a compensation lower bound of our problem.
- Abstract(参考訳): 本研究では,リニアバンディットにおける筋電図利用者の探索にインセンティブを与える問題について検討する。
長期報酬を最大化するために、このシステムは、利用者に探索用アームを引き出すインセンティブを与え、エクスプロイト、探索、補償のトレードオフをバランスさせることを目的としている。
本研究では,ユーザによって観察されるコンテキスト特徴が,ユーザのプライベート情報に基づく特徴がシステムからアクセスできないような,新たな,実用的なモチベーションを持つ環境について考察する。
このような情報ギャップ下での探索をインセンティブ化する新しい手法を提案し,その方法がサブリニア後悔とサブリニア補償の両方を達成することを証明した。
我々は,情報ギャップによる付加的な補償を,ユーザと同じコンテキスト,すなわち情報ギャップのないシステムに対して理論的かつ経験的に分析する。
問題の範囲を低くした補償も提供します。
関連論文リスト
- Exploiting Correlated Auxiliary Feedback in Parameterized Bandits [56.84649080789685]
そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
論文 参考訳(メタデータ) (2023-11-05T17:27:06Z) - Explainable Active Learning for Preference Elicitation [0.0]
我々は、最小限のユーザ労力で情報取得を最大化することを目的として、この問題を解決するためにアクティブラーニング(AL)を採用している。
ALは、大きなラベルのない集合から情報的データを選択して、それらをラベル付けするオラクルを問い合わせる。
ベースとなる機械学習(ML)モデルを更新するために、ユーザからのフィードバック(提示された項目に関するシステムの説明のために)を情報的なサンプルから収集する。
論文 参考訳(メタデータ) (2023-09-01T09:22:33Z) - Consumer-side Fairness in Recommender Systems: A Systematic Survey of
Methods and Evaluation [1.4123323039043334]
機械学習手法における差別意識の高まりは、学界と産業の両方を動機付け、レコメンデーションシステムにおける公正性の確保について研究した。
推薦制度では、そのような問題は職業推薦によってよく例示されており、歴史的データの偏見は、1つの性別から低い賃金、あるいはステレオタイプの普及に関する推薦制度につながる可能性がある。
本調査は、リコメンデーションシステムにおける消費者側の公正性に関する現在の研究の体系的概要と議論である。
論文 参考訳(メタデータ) (2023-05-16T10:07:41Z) - PIE: Personalized Interest Exploration for Large-Scale Recommender
Systems [0.0]
これらの課題に対処するために,大規模レコメンデータシステムにおける探索のためのフレームワークを提案する。
我々の方法論は、最小限の修正で既存の大規模レコメンデータシステムに容易に統合できる。
私たちの仕事は、何十億ものユーザーを対象とする人気のビデオ発見および共有プラットフォームであるFacebook Watchで運用されている。
論文 参考訳(メタデータ) (2023-04-13T22:25:09Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - FedGRec: Federated Graph Recommender System with Lazy Update of Latent
Embeddings [108.77460689459247]
プライバシー問題を軽減するためのフェデレートグラフレコメンダシステム(FedGRec)を提案する。
本システムでは,ユーザとサーバは,ユーザとアイテムに対する遅延埋め込みを明示的に記憶する。
我々は,遅延埋め込みを相互作用グラフの欠落のプロキシとして用いることの有効性を検証するために,広範な実験的な評価を行った。
論文 参考訳(メタデータ) (2022-10-25T01:08:20Z) - Fairness-Aware Explainable Recommendation over Knowledge Graphs [73.81994676695346]
ユーザのアクティビティのレベルに応じて異なるグループのユーザを分析し、異なるグループ間での推奨パフォーマンスにバイアスが存在することを確認する。
不活性なユーザは、不活性なユーザのためのトレーニングデータが不十分なため、不満足なレコメンデーションを受けやすい可能性がある。
本稿では、知識グラフに対する説明可能な推奨という文脈で、この問題を緩和するために再ランク付けすることで、公平性に制約されたアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-03T05:04:38Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。