論文の概要: Trading off rewards and errors in multi-armed bandits
- arxiv url: http://arxiv.org/abs/2605.00488v1
- Date: Fri, 01 May 2026 07:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.898933
- Title: Trading off rewards and errors in multi-armed bandits
- Title(参考訳): 多腕バンディットにおける報酬と誤りのトレーディング
- Authors: Akram Erraqabi, Alessandro Lazaric, Michal Valko, Emma Brunskill, Yun-En Liu,
- Abstract要約: マルチアームのバンディットでは、最も探索された腕が最も情報的であり、報酬は通常、最高の腕だけを引っ張る。
我々は,腕の識別と報酬の蓄積のトレードオフを正確に検討し,両目的を補間する後悔の保証付きアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 67.17373523809844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-armed bandits, the most-explored arms are the most informative, while reward maximization typically pulls only the best arm. We study the tradeoff between identifying arm means accurately and accumulating reward, and present an algorithm with regret guarantees that interpolates between the two objectives. We provide both upper and lower bounds and validate empirically.
- Abstract(参考訳): マルチアームのバンディットでは、最も探索された腕が最も情報的であり、報酬の最大化は通常、最高の腕だけを引っ張る。
我々は,腕の識別と報酬の蓄積のトレードオフを正確に検討し,両目的を補間する後悔の保証付きアルゴリズムを提案する。
上界と下界の両方を提供し、経験的に検証する。
関連論文リスト
- Strategic Multi-Armed Bandit Problems Under Debt-Free Reporting [21.14355421498382]
我々は、古典的なマルチアームバンディット問題を考えるが、戦略的な武器で考える。
両腕が真に振る舞う平衡を確立するための新しいメカニズムを導入し、その報酬をできるだけ多く開示する。
この機構により、エージェントは腕の中で2番目に高い(真の)報酬を得ることができ、累積的後悔は$O(log(T)/Delta)$(problem-dependent)または$O(sqrtTlog(T))$(worst-case)で束縛される。
論文 参考訳(メタデータ) (2025-01-27T13:01:34Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Imprecise Multi-Armed Bandits [0.0]
そこで本研究では,各アームが,結果空間上の固定された未知の干潟と結びついている,新しいマルチアーム・バンディット・フレームワークを提案する。
次に、これらのクレダル集合によって定義される下述の前提に対応する後悔の概念を定義する。
論文 参考訳(メタデータ) (2024-05-09T10:58:40Z) - Information-Gathering in Latent Bandits [79.6953033727455]
本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
論文 参考訳(メタデータ) (2022-07-08T01:15:12Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Bandit problems with fidelity rewards [7.154621689269006]
フィデリティ・バンディット問題(英: fidelity bandits problem)とは、過去にプレイヤーがその腕に「ロヤル」したかによって、各腕の報酬がフィデリティ・報酬によって増強されるK$アームのバンディット問題の変種である。
忠誠ポイントモデルでは、余分な報酬の量は、これまで腕が演奏された回数に依存する。
サブスクリプションモデルでは、追加の報酬は腕の連続的な引き分けの数に依存する。
論文 参考訳(メタデータ) (2021-11-25T11:09:43Z) - Generic Outlier Detection in Multi-Armed Bandit [44.11480686973274]
GOLDと呼ばれる新しい引抜きアルゴリズムを提案し、そのような一般的な外装アームを同定する。
合成データセットと実世界のデータセットの両方で行った実験で,提案アルゴリズムは98%の精度を達成した。
論文 参考訳(メタデータ) (2020-07-14T18:42:44Z) - Fair Algorithms for Multi-Agent Multi-Armed Bandits [29.68201160277817]
本稿では,古典的マルチアームバンディット問題のマルチエージェント変種を提案する。
目的は「ベストアーム」を学ばないことであり、実際、各エージェントは別のアームを個人にとって最高のものとみなすことができる。
3つの古典的マルチアームバンディットアルゴリズムのマルチエージェント変種が,サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2020-07-13T21:20:04Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。