論文の概要: Extreme bandits
- arxiv url: http://arxiv.org/abs/2604.24545v1
- Date: Mon, 27 Apr 2026 14:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.0904
- Title: Extreme bandits
- Title(参考訳): 極端盗賊
- Authors: Alexandra Carpentier, Michal Valko,
- Abstract要約: 医学、セキュリティ、生命科学では、極端な値を検出するために、異なるソースに限られたリソースを割り当てたい。
本稿では,限られたフィードバックの下で,これらの資源を逐次割り当てる効率的な方法について検討する。
本稿では,ExtremeHunterアルゴリズムを提案し,その解析を行い,実世界の人工実験で実証的に評価する。
- 参考スコア(独自算出の注目度): 64.91400609178565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many areas of medicine, security, and life sciences, we want to allocate limited resources to different sources in order to detect extreme values. In this paper, we study an efficient way to allocate these resources sequentially under limited feedback. While sequential design of experiments is well studied in bandit theory, the most commonly optimized property is the regret with respect to the maximum mean reward. However, in other problems such as network intrusion detection, we are interested in detecting the most extreme value output by the sources. Therefore, in our work we study extreme regret which measures the efficiency of an algorithm compared to the oracle policy selecting the source with the heaviest tail. We propose the ExtremeHunter algorithm, provide its analysis, and evaluate it empirically on synthetic and real-world experiments.
- Abstract(参考訳): 医学、セキュリティ、生命科学の多くの分野において、極度の値を検出するために、異なる情報源に限られた資源を割り当てたい。
本稿では,限られたフィードバックの下で,これらの資源を逐次割り当てる効率的な方法について検討する。
実験の逐次設計はバンド理論においてよく研究されているが、最も一般的に最適化された性質は最大平均報酬に対する後悔である。
しかし、ネットワーク侵入検出などの他の問題では、ソースから出力される最も極端な値を検出することに興味がある。
そこで,本研究では,最も重い尾を持つソースを選択する託宣方針と比較してアルゴリズムの効率を測る極度の後悔について検討する。
本稿では,ExtremeHunterアルゴリズムを提案し,その解析を行い,実世界の人工実験で実証的に評価する。
関連論文リスト
- Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Dual-Directed Algorithm Design for Efficient Pure Exploration [9.728332815218181]
我々は、最良腕識別を超えたトップ2のアプローチを拡張する純粋探索問題のための新しい設計原理を開発する。
情報指向選択と組み合わせて、トップ2のトンプソンサンプリングがベストアーム識別に最適であることを示す。
また,しきい値と$varepsilon$-best-arm識別のための最適なアルゴリズムも作成する。
論文 参考訳(メタデータ) (2023-10-30T07:29:17Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Lenient Regret and Good-Action Identification in Gaussian Process
Bandits [43.03669155559218]
我々は、あるしきい値を超える関数値が「十分良い」という緩和された最適化基準の下で、ガウス過程(GP)バンディットの問題を研究する。
実用面では、既知のしきい値に従って1つの「良い行動」を見つけることの問題を考えるとともに、しきい値の知識を生かしたいくつかの善行動識別アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-02-11T01:16:58Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Multi-Armed Bandits with Censored Consumption of Resources [9.803834317538747]
我々は、古典的マルチアームバンディット問題のリソース対応版を考える。
各ラウンドで、学習者はアームを選択し、リソース制限を決定する。
その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。
論文 参考訳(メタデータ) (2020-11-02T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。