論文の概要: Envious Explore and Exploit
- arxiv url: http://arxiv.org/abs/2502.12798v1
- Date: Tue, 18 Feb 2025 12:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:31.222908
- Title: Envious Explore and Exploit
- Title(参考訳): Envious Explore and Exploit
- Authors: Omer Ben-Porat, Yotam Gafni, Or Markovetzki,
- Abstract要約: エンビーの経済的概念を用いた探索・探索機構の社会的効果について検討した。
各ラウンドが複数のセッションで構成され,報酬が1ラウンド毎に1回実現される,マルチアームのバンディットのようなモデルを提案する。
欠点としては、後期から後期のユーザーがアーリー・ツー・アーリーのユーザーによって収集された情報を楽しむためである。
- 参考スコア(独自算出の注目度): 8.029049649310213
- License:
- Abstract: Explore-and-exploit tradeoffs play a key role in recommendation systems (RSs), aiming at serving users better by learning from previous interactions. Despite their commercial success, the societal effects of explore-and-exploit mechanisms are not well understood, especially regarding the utility discrepancy they generate between different users. In this work, we measure such discrepancy using the economic notion of envy. We present a multi-armed bandit-like model in which every round consists of several sessions, and rewards are realized once per round. We call the latter property reward consistency, and show that the RS can leverage this property for better societal outcomes. On the downside, doing so also generates envy, as late-to-arrive users enjoy the information gathered by early-to-arrive users. We examine the generated envy under several arrival order mechanisms and virtually any anonymous algorithm, i.e., any algorithm that treats all similar users similarly without leveraging their identities. We provide tight envy bounds on uniform arrival and upper bound the envy for nudged arrival, in which the RS can affect the order of arrival by nudging its users. Furthermore, we study the efficiency-fairness trade-off by devising an algorithm that allows constant envy and approximates the optimal welfare in restricted settings. Finally, we validate our theoretical results empirically using simulations.
- Abstract(参考訳): エクスプロイトとエクスプロイトのトレードオフはレコメンデーションシステム(RS)において重要な役割を果たす。
商業的成功にもかかわらず、探索と探索のメカニズムの社会的影響はよく理解されていない。
本研究では,このような不一致を,経済観念を用いて測定する。
各ラウンドが複数のセッションで構成され,報酬が1ラウンド毎に1回実現される,マルチアームのバンディットのようなモデルを提案する。
我々は、後者の資産報酬の整合性と呼び、RSがこの資産をより良い社会的結果に活用できることを示します。
欠点としては、後期から後期のユーザーがアーリー・ツー・アーリーのユーザーによって収集された情報を楽しむためである。
我々は、複数の到着順序機構と事実上任意の匿名アルゴリズム、すなわち、類似したすべてのユーザーをそのアイデンティティを活用せずに同様に扱うアルゴリズムの下で、生成したうらやみを検証した。
我々は,一様着信および上界着信において,RSが着信順序に影響を及ぼすような,一様着信と上界着信の密接な着信境界を提供する。
さらに,制限された環境下での最適福祉を一定に回避し,近似するアルゴリズムを考案し,効率・公平性のトレードオフについて検討した。
最後に,シミュレーションを用いて理論的結果を実証的に検証する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Cascading Reinforcement Learning [21.267106043818792]
カスケードバンディットモデルでは、各タイムステップにおいて、エージェントはアイテムのプールから注文されたアイテムのサブセットを推奨し、それぞれが未知のアトラクション確率に関連付けられている。
本稿では,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケーディングRLフレームワークを提案する。
カスケード RL では、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。
そこで我々はCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-17T04:20:26Z) - Adversarial Bandits with Multi-User Delayed Feedback: Theory and
Application [17.64363983613468]
我々は,マルチユーザ遅延フィードバックを用いた逆MAB問題を定式化し,修正されたEXP3アルゴリズム MUD-EXP3 を設計する。
本稿では,複数のユーザからの遅延フィードバック結果について考察し,内部分布に制限を加えることなく検討する。
論文 参考訳(メタデータ) (2023-10-17T12:08:15Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。
ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。
本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文 参考訳(メタデータ) (2020-09-02T12:54:13Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。