論文の概要: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
- arxiv url: http://arxiv.org/abs/2212.00884v2
- Date: Tue, 30 May 2023 23:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 23:29:02.720029
- Title: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
- Title(参考訳): 多目的マルチアームバンドにおけるパレートレグレス解析
- Authors: Mengfan Xu, Diego Klabjan
- Abstract要約: 多目的多武装バンディットの最適性について検討する。
我々は,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
アルゴリズムは、対数設定において最適であり、同時に設定において対数係数までほぼ最適である。
- 参考スコア(独自算出の注目度): 22.17126026244685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Pareto optimality in multi-objective multi-armed bandit by providing
a formulation of adversarial multi-objective multi-armed bandit and defining
its Pareto regrets that can be applied to both stochastic and adversarial
settings. The regrets do not rely on any scalarization functions and reflect
Pareto optimality compared to scalarized regrets. We also present new
algorithms assuming both with and without prior information of the
multi-objective multi-armed bandit setting. The algorithms are shown optimal in
adversarial settings and nearly optimal up to a logarithmic factor in
stochastic settings simultaneously by our established upper bounds and lower
bounds on Pareto regrets. Moreover, the lower bound analyses show that the new
regrets are consistent with the existing Pareto regret for stochastic settings
and extend an adversarial attack mechanism from bandit to the multi-objective
one.
- Abstract(参考訳): 本研究では,多目的多目的多目的バンディットのパレート最適性を,対向多目的多目的バンディットの定式化と,対向的および対向的両方の設定に適用可能なパレートの後悔を定義することによって検討する。
後悔はいかなるスカラー化機能にも依存せず、スカラー化された後悔と比べてパレートの最適性を反映している。
また,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
これらのアルゴリズムは, 対数的設定において最適であり, 確率的設定における対数的要素までほぼ最適である。
さらに, 下部境界解析により, 新たな後悔は確率的設定に対する既存のパレートの後悔と一致し, バンディットから多目的攻撃へ敵意攻撃機構を拡張できることを示した。
関連論文リスト
- Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Adaptive Algorithms for Relaxed Pareto Set Identification [12.326452468513228]
多目的多武装バンディットモデルにおけるパレート最適セットの固定信頼度同定を再検討する。
そこで我々は,Adaptive Pareto Exploration (Adaptive Pareto Exploration) と呼ばれる単一サンプリング手法を提案する。
我々はこれらの組み合わせのサンプルの複雑さを分析し、特にサンプルの複雑さの減少を定量化する。
論文 参考訳(メタデータ) (2023-07-01T20:43:12Z) - Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [23.710821382735077]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。
エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文 参考訳(メタデータ) (2023-05-30T06:35:49Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - Slowly Changing Adversarial Bandit Algorithms are Efficient for
Discounted MDPs [10.68896183306706]
強化学習は、長期計画の地平線と未知の遷移カーネルのさらなる困難を伴って、多武装のバンディット問題を一般化する。
また, 無限水平割引マルコフ決定過程において, 逆帯域設定における最適後悔を達成するために, 徐々に変化する逆帯域設定アルゴリズムが最適後悔を達成できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:40:30Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Diversity-Preserving K-Armed Bandits, Revisited [0.0]
本稿では,Celisらによって導入された多様性保全レコメンデーションのための,バンディットに基づくフレームワークについて考察する。
設定の具体的構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての動作に何らかの確率質量を与える場合の自然の場合において、分布依存的後悔を楽しむことを示す。
論文 参考訳(メタデータ) (2020-10-05T09:22:31Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。