論文の概要: Multi-armed Bandit Algorithm against Strategic Replication
- arxiv url: http://arxiv.org/abs/2110.12160v1
- Date: Sat, 23 Oct 2021 07:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:10:43.390190
- Title: Multi-armed Bandit Algorithm against Strategic Replication
- Title(参考訳): 戦略的複製に対するマルチアームバンディットアルゴリズム
- Authors: Suho Shin, Seungjoon Lee, Jungseul Ok
- Abstract要約: 我々は,各エージェントが一組のアームを登録する多腕バンディット問題を考慮し,各エージェントがそのアームを選択すると報酬を受け取る。
エージェントは、より多くの武器を複製で戦略的に送信し、バンディットアルゴリズムの探索と探索のバランスを悪用することで、より多くの報酬をもたらす可能性がある。
本稿では,複製の復号化と,最小限の累積後悔を実現するバンディットアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.235979896921492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a multi-armed bandit problem in which a set of arms is registered
by each agent, and the agent receives reward when its arm is selected. An agent
might strategically submit more arms with replications, which can bring more
reward by abusing the bandit algorithm's exploration-exploitation balance. Our
analysis reveals that a standard algorithm indeed fails at preventing
replication and suffers from linear regret in time $T$. We aim to design a
bandit algorithm which demotivates replications and also achieves a small
cumulative regret. We devise Hierarchical UCB (H-UCB) of replication-proof,
which has $O(\ln T)$-regret under any equilibrium. We further propose Robust
Hierarchical UCB (RH-UCB) which has a sublinear regret even in a realistic
scenario with irrational agents replicating careless. We verify our theoretical
findings through numerical experiments.
- Abstract(参考訳): 我々は,各エージェントが一組のアームを登録する多腕バンディット問題を考慮し,各エージェントがそのアームを選択すると報酬を受け取る。
エージェントは戦略的により多くの武器を複製して提出し、バンディットアルゴリズムの探索と探索のバランスを悪用することでより多くの報酬をもたらす可能性がある。
解析の結果、標準アルゴリズムは複製防止に失敗し、t$で線形後悔に苦しむことが明らかとなった。
我々は,複製のモチベーションを低下させ,少量の累積的後悔を実現するbanditアルゴリズムの設計を目指している。
我々は、いかなる平衡の下でも$O(\ln T)$-regretを持つ複製耐性の階層的 UCB (H-UCB) を考案する。
さらに,不注意を再現する不合理なエージェントを用いた現実的なシナリオにおいても,サブリニアな後悔を伴うRobust Hierarchical UCB (RH-UCB)を提案する。
数値実験により理論的結果を検証する。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。
特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文 参考訳(メタデータ) (2024-02-12T03:31:34Z) - Replication-proof Bandit Mechanism Design [9.101603681930085]
エージェントが自分の腕を戦略的に登録したり、複製したりする際に、複製防止バンディット機構を設計する問題について検討する。
この拡張は平衡解析において大きな課題をもたらす。
あらゆる問題に対して複製耐性のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-12-28T08:36:35Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms [10.662105162882526]
本研究は,Emphmany-armed regimeにおける$k$-armed bandit問題について考察する。
以上の結果から,多腕の環境下での強欲なアルゴリズムには,新たなエフェフリー探索法が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T08:59:34Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。