論文の概要: Bandit Social Learning: Exploration under Myopic Behavior
- arxiv url: http://arxiv.org/abs/2302.07425v1
- Date: Wed, 15 Feb 2023 01:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:00:13.651325
- Title: Bandit Social Learning: Exploration under Myopic Behavior
- Title(参考訳): バンド・ソーシャル・ラーニング : 神秘的行動による探索
- Authors: Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Aleksandrs
Slivkins
- Abstract要約: 我々は、エージェントが単純なマルチアームバンディットプロトコルを集合的に従う社会的学習のダイナミクスについて研究する。
エージェントは全体として、探索と探索のトレードオフに直面しているが、各エージェントは、探索に関係なく、神秘的に行動する。
我々は,「前向きに楽観的」なエージェントを解析することで,後悔の上限を一致させる。
- 参考スコア(独自算出の注目度): 71.26769416119033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study social learning dynamics where the agents collectively follow a
simple multi-armed bandit protocol. Agents arrive sequentially, choose arms and
receive associated rewards. Each agent observes the full history (arms and
rewards) of the previous agents, and there are no private signals. While
collectively the agents face exploration-exploitation tradeoff, each agent acts
myopically, without regards to exploration. Motivating scenarios concern
reviews and ratings on online platforms.
We allow a wide range of myopic behaviors that are consistent with
(parameterized) confidence intervals, including the "unbiased" behavior as well
as various behaviorial biases. While extreme versions of these behaviors
correspond to well-known bandit algorithms, we prove that more moderate
versions lead to stark exploration failures, and consequently to regret rates
that are linear in the number of agents. We provide matching upper bounds on
regret by analyzing "moderately optimistic" agents.
As a special case of independent interest, we obtain a general result on
failure of the greedy algorithm in multi-armed bandits. This is the first such
result in the literature, to the best of our knowledge
- Abstract(参考訳): エージェントが単純なマルチアームバンディットプロトコルに従う社会学習のダイナミクスについて検討する。
エージェントは順次到着し、腕を選び、関連する報酬を受け取る。
各エージェントは、前のエージェントの完全な履歴(武器と報酬)を観察し、プライベートシグナルは存在しない。
協力してエージェントは探索と探索のトレードオフに直面しますが、それぞれのエージェントは探査に関して無差別に行動します。
モチベーションシナリオは、オンラインプラットフォームにおけるレビューと評価に関するものだ。
我々は、「偏見のない」行動や様々な行動バイアスを含む、(パラメータ化された)信頼区間と整合した幅広い筋電図的行動を許容する。
これらの行動の極端なバージョンはよく知られたバンディットアルゴリズムに対応しているが、より穏健なバージョンは究極の探索失敗につながり、結果としてエージェント数に線形な後悔率をもたらすことを証明している。
我々は「適度に楽観的な」エージェントを分析して後悔の上限を一致させる。
独立利害関係の特別な場合として,多腕バンディットにおけるグリーディアルゴリズムの故障に関する一般的な結果を得る。
これは私たちの知る限りでは 文学における最初の結果です
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-16T02:19:37Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - The Combinatorial Multi-Bandit Problem and its Application to Energy
Management [2.236663830879273]
本稿では,エネルギーシステム管理の応用を動機とした,コンビニアルマルチバンド問題について考察する。
エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数理プログラミングを組み合わせたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-30T13:42:54Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。