Fugu-MT 論文翻訳(概要): Bandit Social Learning: Exploration under Myopic Behavior

論文の概要: Bandit Social Learning: Exploration under Myopic Behavior

arxiv url: http://arxiv.org/abs/2302.07425v4
Date: Fri, 3 Nov 2023 22:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 01:04:34.185589
Title: Bandit Social Learning: Exploration under Myopic Behavior
Title（参考訳）: バンド・ソーシャル・ラーニング : 神秘的行動による探索
Authors: Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Aleksandrs Slivkins
Abstract要約: オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
参考スコア（独自算出の注目度）: 58.75758600464338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study social learning dynamics motivated by reviews on online platforms. The agents collectively follow a simple multi-armed bandit protocol, but each agent acts myopically, without regards to exploration. We allow a wide range of myopic behaviors that are consistent with (parameterized) confidence intervals for the arms' expected rewards. We derive stark learning failures for any such behavior, and provide matching positive results. As a special case, we obtain the first general results on failure of the greedy algorithm in bandits, thus providing a theoretical foundation for why bandit algorithms should explore.
Abstract（参考訳）: オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索に関係なくミオプティカルに振る舞う。我々は、腕の期待される報酬に対して、(パラメータ化された)信頼区間と整合した幅広い明視行動を許容する。私たちはこのような行動に対して、ひどい学習失敗を導き出し、一致するポジティブな結果を与えます。特殊な場合として,bandits における greedy アルゴリズムの故障に関する最初の一般的な結果を得ることにより,bandit アルゴリズムが探索すべき理由に関する理論的基礎を提供する。

関連論文リスト

Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
DROP: Distributional and Regular Optimism and Pessimism for Reinforcement Learning [6.20048328543366]
本稿では,制御を推論として導いた楽観主義と悲観主義を用いた理論的基礎モデルを提案する。モデルでは学習性能は低かったが,DROPは全タスクにおいて高い一般性を示した。
論文参考訳（メタデータ） (2024-10-22T23:14:09Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。 3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文参考訳（メタデータ） (2022-06-16T02:19:37Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
What killed the Convex Booster ? [70.04715330065275]
LongとServedioの目覚ましい否定的な結果は、教師付き学習トリオの最悪の大失敗を生んだ。否定的な結果の源泉は,ML の広範(あるいはそれ以外は注目に値する)な側面のダークサイドにある,と我々は主張する。
論文参考訳（メタデータ） (2022-05-19T15:42:20Z)
Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits with Super Heavy-Tailed Payoffs [27.636407641546914]
実験的な中央値列の経験的平均を計算し,確率変数を推定する,新しい頑健な統計推定器を提案する。非常に重みのある雑音であっても, 後悔の限界がほぼ最適であることを示す。
論文参考訳（メタデータ） (2021-10-26T17:30:44Z)
Bellman-consistent Pessimism for Offline Reinforcement Learning [46.97637726255375]
一般関数近似に対するベルマン一貫性悲観論の概念を導入する。我々の理論的な保証は、探索的な設定において標準としてベルマン閉性を必要とするだけである。
論文参考訳（メタデータ） (2021-06-13T05:50:36Z)
Be Greedy in Multi-Armed Bandits [22.301793734117805]
グレディアルゴリズムは、各ラウンドで局所最適選択を行う、シーケンシャルな決定問題の最も単純なものである。 We provide a generic worst-case bound on the regret of the Greedy algorithm。連続・無限・多武装バンディット問題において,ほぼ最適の最悪の後悔境界を検証できることを証明した。
論文参考訳（メタデータ） (2021-01-04T16:47:02Z)
Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-13T12:25:41Z)
The Combinatorial Multi-Bandit Problem and its Application to Energy Management [2.236663830879273]
本稿では,エネルギーシステム管理の応用を動機とした,コンビニアルマルチバンド問題について考察する。エネルギー管理アプリケーションのために,マルチアームバンディットの探索原理と数理プログラミングを組み合わせたアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-30T13:42:54Z)
Instance-Dependent Complexity of Contextual Bandits and Reinforcement Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文参考訳（メタデータ） (2020-10-07T01:33:06Z)
Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文参考訳（メタデータ） (2020-06-15T19:24:02Z)
Excursion Search for Constrained Bayesian Optimization under a Limited Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文参考訳（メタデータ） (2020-05-15T09:54:09Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。