論文の概要: Strategic Multi-Armed Bandit Problems Under Debt-Free Reporting
- arxiv url: http://arxiv.org/abs/2501.16018v1
- Date: Mon, 27 Jan 2025 13:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:54:16.766216
- Title: Strategic Multi-Armed Bandit Problems Under Debt-Free Reporting
- Title(参考訳): Debt-free Reporting における戦略的多要素帯域問題
- Authors: Ahmed Ben Yahmed, Clément Calauzènes, Vianney Perchet,
- Abstract要約: 我々は、古典的なマルチアームバンディット問題を考えるが、戦略的な武器で考える。
両腕が真に振る舞う平衡を確立するための新しいメカニズムを導入し、その報酬をできるだけ多く開示する。
この機構により、エージェントは腕の中で2番目に高い(真の)報酬を得ることができ、累積的後悔は$O(log(T)/Delta)$(problem-dependent)または$O(sqrtTlog(T))$(worst-case)で束縛される。
- 参考スコア(独自算出の注目度): 21.14355421498382
- License:
- Abstract: We consider the classical multi-armed bandit problem, but with strategic arms. In this context, each arm is characterized by a bounded support reward distribution and strategically aims to maximize its own utility by potentially retaining a portion of its reward, and disclosing only a fraction of it to the learning agent. This scenario unfolds as a game over $T$ rounds, leading to a competition of objectives between the learning agent, aiming to minimize their regret, and the arms, motivated by the desire to maximize their individual utilities. To address these dynamics, we introduce a new mechanism that establishes an equilibrium wherein each arm behaves truthfully and discloses as much of its rewards as possible. With this mechanism, the agent can attain the second-highest average (true) reward among arms, with a cumulative regret bounded by $O(\log(T)/\Delta)$ (problem-dependent) or $O(\sqrt{T\log(T)})$ (worst-case).
- Abstract(参考訳): 我々は、古典的なマルチアームバンディット問題を考えるが、戦略的な武器で考える。
この文脈では、各アームは、有界支持報酬分布により特徴づけられ、その報酬の一部を潜在的に保持し、その一部を学習エージェントに開示することで、自身のユーティリティを最大限にすることを目的としている。
このシナリオは、T$ラウンド以上のゲームとして展開され、学習エージェント間の目的の競争に繋がる。
これらの力学に対処するために、各腕が真に振る舞う平衡を確立する新しいメカニズムを導入し、その報酬をできるだけ多く開示する。
この機構により、エージェントは腕の中で2番目に高い(真の)報酬を得ることができ、累積的後悔は$O(\log(T)/\Delta)$(problem-dependent)または$O(\sqrt{T\log(T)})$(worst-case)で束縛される。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
我々の洗練された分析により、アルゴリズムの平均的なアームプル数が、$delta$が消えるにつれて、基本的限界に収束する速度に縛られる新しい現象が明らかになった。
論文 参考訳(メタデータ) (2024-09-08T12:19:12Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals [0.9831489366502302]
予算的マルチアーマッド・バンドイット(MAB)問題について検討し、プレイヤーが期待できない報酬とコストでK$アームから選択する。
非対称な信頼区間を用いた新しいアッパー信頼境界(UCB)サンプリングポリシーである$omega$-UCBを提案する。
これらの間隔は、サンプル平均とランダム変数の境界との間の距離でスケールし、報酬コスト比をより正確かつ厳密に推定する。
論文 参考訳(メタデータ) (2023-06-12T12:35:16Z) - Competing for Shareable Arms in Multi-Player Multi-Armed Bandits [29.08799537067425]
本稿では,プレイヤーが自尊心を持ち,自己報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)について検討する。
本稿では, 平均アロケーション (SMAA) を用いた新たな自己中心型MPMABを提案する。
我々は,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響も与えないことを確認した。
論文 参考訳(メタデータ) (2023-05-30T15:59:56Z) - Modelling Cournot Games as Multi-agent Multi-armed Bandits [4.751331778201811]
繰り返しCournot oligopolyゲームにおけるマルチエージェントマルチアーム・バンディット(MA-MAB)の設定について検討した。
私たちは、$epsilon$-greedyアプローチが、従来のMABアプローチよりもより実行可能な学習メカニズムを提供することに気付きました。
順序付けられたアクション空間を利用する新しいアプローチとして、$epsilon$-greedy+HLと$epsilon$-greedy+ELを提案する。
論文 参考訳(メタデータ) (2022-01-01T22:02:47Z) - Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。
我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。
両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文 参考訳(メタデータ) (2021-05-19T01:06:32Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Combinatorial Bandits under Strategic Manipulations [25.882801456026584]
報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
論文 参考訳(メタデータ) (2021-02-25T07:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。