論文の概要: Ranked Prioritization of Groups in Combinatorial Bandit Allocation
- arxiv url: http://arxiv.org/abs/2205.05659v1
- Date: Wed, 11 May 2022 17:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:12:03.395070
- Title: Ranked Prioritization of Groups in Combinatorial Bandit Allocation
- Title(参考訳): 組合せ帯域割り当てにおけるグループのランク付け
- Authors: Lily Xu, Arpita Biswas, Fei Fang, Milind Tambe
- Abstract要約: 我々は,種々に対する報酬を交換する新たな盗賊的目標を提案する。
この目的をリプシッツ連続報酬関数の重み付き線型和として表すことができる。
- 参考スコア(独自算出の注目度): 62.24280332575472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preventing poaching through ranger patrols protects endangered wildlife,
directly contributing to the UN Sustainable Development Goal 15 of life on
land. Combinatorial bandits have been used to allocate limited patrol
resources, but existing approaches overlook the fact that each location is home
to multiple species in varying proportions, so a patrol benefits each species
to differing degrees. When some species are more vulnerable, we ought to offer
more protection to these animals; unfortunately, existing combinatorial bandit
approaches do not offer a way to prioritize important species. To bridge this
gap, (1) We propose a novel combinatorial bandit objective that trades off
between reward maximization and also accounts for prioritization over species,
which we call ranked prioritization. We show this objective can be expressed as
a weighted linear sum of Lipschitz-continuous reward functions. (2) We provide
RankedCUCB, an algorithm to select combinatorial actions that optimize our
prioritization-based objective, and prove that it achieves asymptotic
no-regret. (3) We demonstrate empirically that RankedCUCB leads to up to 38%
improvement in outcomes for endangered species using real-world wildlife
conservation data. Along with adapting to other challenges such as preventing
illegal logging and overfishing, our no-regret algorithm addresses the general
combinatorial bandit problem with a weighted linear objective.
- Abstract(参考訳): レンジャーパトロールによる密猟の防止は絶滅危惧種の野生生物を保護し、国連の持続可能な開発目標15に直接貢献する。
コンビニアル・バンディットは限られたパトロール資源を割り当てるために使われてきたが、既存のアプローチでは、それぞれの場所が様々な割合で複数の種の生息地であることを見落としている。
一部の種がより脆弱な場合には、これらの動物により多くの保護を与える必要があるが、残念ながら、既存の組み合わせ型バンディットアプローチは重要な種を優先する手段を提供していない。
このギャップを埋めるために,(1)報奨の最大化と種に対する優先順位付けを両立させる新しい組合せバンディットの目的を提案する。
この目的をリプシッツ連続報酬関数の重み付き線形和として表現できることを示す。
2) 優先順位付けに基づく目標を最適化する組合せ動作を選択するアルゴリズムである rankcucb を提供し,漸近的な no-regret を達成することを証明した。
3) 実世界の野生生物保全データを用いて, 絶滅危惧種の成績が最大38%向上することを示す。
不正なロギングや過剰漁の防止など,他の課題への適応に加えて,本アルゴリズムでは,重み付き線形目的の一般組合せバンディット問題に対処する。
関連論文リスト
- Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Expanding boundaries of Gap Safe screening [0.0]
アルゴリズムの性能を高める強力な戦略は、safe screeningとして知られている。
双対コスト関数に対するグローバルな強結合性仮定を緩和することにより,既存のギャップセーフスクリーニングフレームワークを拡張する。
提案された一般的なフレームワークは、ロジスティック関数、beta = 1.5、kullback-leibler divergencesといった特別なケースで例示されている。
論文 参考訳(メタデータ) (2021-02-22T09:23:31Z) - Dual-Mandate Patrols: Multi-Armed Bandits for Green Security [67.29846393678808]
野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保全努力は、守備隊の限られた利用範囲によって制限されている。
我々はこの問題を多武装の盗賊として定式化し、それぞれの行動がパトロール戦略を表す。
我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-09-14T16:40:44Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。