論文の概要: Influencing Bandits: Arm Selection for Preference Shaping
- arxiv url: http://arxiv.org/abs/2403.00036v1
- Date: Thu, 29 Feb 2024 05:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:25:39.891836
- Title: Influencing Bandits: Arm Selection for Preference Shaping
- Title(参考訳): 帯域に影響: 選好整形のための腕選択
- Authors: Viraj Nadkarni and D. Manjunath and Sharayu Moharir
- Abstract要約: 我々は、人口の嗜好が観察された報奨によって補強される非定常的多武装バンディットを考える。
このアルゴリズムの目的は、所定の腕を好む人口の比率を最大化するために、人口嗜好を形作ることである。
- 参考スコア(独自算出の注目度): 6.09482389414961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a non stationary multi-armed bandit in which the population
preferences are positively and negatively reinforced by the observed rewards.
The objective of the algorithm is to shape the population preferences to
maximize the fraction of the population favouring a predetermined arm. For the
case of binary opinions, two types of opinion dynamics are considered --
decreasing elasticity (modeled as a Polya urn with increasing number of balls)
and constant elasticity (using the voter model). For the first case, we
describe an Explore-then-commit policy and a Thompson sampling policy and
analyse the regret for each of these policies. We then show that these
algorithms and their analyses carry over to the constant elasticity case. We
also describe a Thompson sampling based algorithm for the case when more than
two types of opinions are present. Finally, we discuss the case where presence
of multiple recommendation systems gives rise to a trade-off between their
popularity and opinion shaping objectives.
- Abstract(参考訳): 人口嗜好が観察された報奨によって肯定的かつ否定的に強化される非定常的多武装バンディットを考える。
このアルゴリズムの目的は、所定の腕を好む人口の比率を最大化するために、人口嗜好を形作ることである。
二元的意見の場合は、弾力性低下(球数の増加を伴うポリアウルンとしてモデル化)と定常弾性性(投票者モデルを用いて)の2つのタイプの意見力学が考慮される。
最初のケースでは、探索的コミットポリシーとトンプソンサンプリングポリシーを説明し、それぞれのポリシーに対する後悔を分析します。
そして、これらのアルゴリズムとその解析が定数弾性のケースまで続くことを示す。
また,2種類以上の意見が存在する場合のトンプソンサンプリングに基づくアルゴリズムについても述べる。
最後に,複数のレコメンデーションシステムの存在が,その人気と意見形成目標とのトレードオフをもたらす場合について考察する。
関連論文リスト
- A Generalisation of Voter Model: Influential Nodes and Convergence Properties [5.4327243200369555]
我々は有権者モデルの一般化を紹介し,研究する。
そこで本研究では,いくつかのラウンド後に期待されるブルーノード数を最大化するために,種子のブルーノードを選択する問題について検討する。
実世界のグラフデータおよび合成グラフデータに関する実験により,提案アルゴリズムが他のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2024-11-07T09:38:42Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit [1.2183405753834562]
この研究は、両腕のベルヌーイ・バンディット問題(英語版)(Bernoulli bandit problem)の、腕の手段の和が1であるバージョンに対処する。
我々は, それぞれの問題を線形熱方程式の解に関連付けることにより, minmax最適後悔と擬似回帰の先行順序項を得る。
論文 参考訳(メタデータ) (2022-02-11T17:03:18Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - Adaptive Combinatorial Allocation [77.86290991564829]
割り当てが繰り返し選択され、戻り値は不明だが学習可能であり、決定には制約が伴う。
我々のモデルは、複雑な制約があっても、両側のマッチングと一方のマッチングをカバーしています。
論文 参考訳(メタデータ) (2020-11-04T15:02:59Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。