論文の概要: Bandit Social Learning: Exploration under Myopic Behavior
- arxiv url: http://arxiv.org/abs/2302.07425v5
- Date: Thu, 10 Apr 2025 01:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:19:15.759980
- Title: Bandit Social Learning: Exploration under Myopic Behavior
- Title(参考訳): バンド・ソーシャル・ラーニング : 神秘的行動下での探索
- Authors: Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Aleksandrs Slivkins,
- Abstract要約: オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
- 参考スコア(独自算出の注目度): 54.767961587919075
- License:
- Abstract: We study social learning dynamics motivated by reviews on online platforms. The agents collectively follow a simple multi-armed bandit protocol, but each agent acts myopically, without regards to exploration. We allow the greedy (exploitation-only) algorithm, as well as a wide range of behavioral biases. Specifically, we allow myopic behaviors that are consistent with (parameterized) confidence intervals for the arms' expected rewards. We derive stark learning failures for any such behavior, and provide matching positive results. The learning-failure results extend to Bayesian agents and Bayesian bandit environments. In particular, we obtain general, quantitatively strong results on failure of the greedy bandit algorithm, both for ``frequentist" and ``Bayesian" versions. Failure results known previously are quantitatively weak, and either trivial or very specialized. Thus, we provide a theoretical foundation for designing non-trivial bandit algorithms, \ie algorithms that intentionally explore, which has been missing from the literature. Our general behavioral model can be interpreted as agents' optimism or pessimism. The matching positive results entail a maximal allowed amount of optimism. Moreover, we find that no amount of pessimism helps against the learning failures, whereas even a small-but-constant fraction of extreme optimists avoids the failures and leads to near-optimal regret rates.
- Abstract(参考訳): オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索に関係なくミオプティカルに振る舞う。
我々は、グリーディ(探索のみ)アルゴリズムと幅広い行動バイアスを許容する。
具体的には、腕の期待される報酬に対して、(パラメータ化された)信頼区間と整合した筋電図的行動を認める。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
学習障害の結果はベイジアンエージェントやベイジアン・バンディット環境にまで及んでいる。
特に、h`frequentist" と ``Bayesian" の両バージョンにおいて、greedy bandit アルゴリズムの失敗に関する一般的な、定量的に強い結果が得られる。
既知の失敗結果は定量的に弱く、自明であるか非常に専門的である。
そこで本稿では,本論文から逸脱した,意図的な探索を行う非自明な帯域幅アルゴリズム \ie を設計するための理論的基盤を提供する。
我々の一般的な行動モデルはエージェントの楽観主義や悲観主義と解釈できる。
一致した正の結果は、最大許容される楽観性の量を含む。
さらに、悲観論の量が学習失敗に影響を及ぼすことはないが、極端な楽観主義者のごく一部でさえ失敗を回避し、ほぼ最適の後悔率をもたらす。
関連論文リスト
- Principal-Agent Bandit Games with Self-Interested and Exploratory Learning Agents [16.514561132180134]
本研究では,エージェントが武器を弾くためのインセンティブを提案することで,主役が未知の環境と間接的に対話する繰り返しプリンシパル・エージェント・バンディットゲームについて検討する。
既存の作業の多くは、エージェントが報酬手段について十分な知識を持っていると仮定し、常に欲張りに振る舞うが、多くのオンラインマーケットプレースでは、エージェントは未知の環境を学び、時には探索する必要がある。
そこで我々は,報酬推定を反復的に更新する探索行動を持つ自己関心学習エージェントをモデル化し,推定報酬プラスインセンティブを最大化するアームを選択するか,一定の確率で任意に探索するアームを選択する。
論文 参考訳(メタデータ) (2024-12-20T20:04:50Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-16T02:19:37Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - The Combinatorial Multi-Bandit Problem and its Application to Energy
Management [2.236663830879273]
本稿では,エネルギーシステム管理の応用を動機とした,コンビニアルマルチバンド問題について考察する。
エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数理プログラミングを組み合わせたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-30T13:42:54Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。