論文の概要: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
- arxiv url: http://arxiv.org/abs/2212.00884v2
- Date: Tue, 30 May 2023 23:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 23:29:02.720029
- Title: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
- Title(参考訳): 多目的マルチアームバンドにおけるパレートレグレス解析
- Authors: Mengfan Xu, Diego Klabjan
- Abstract要約: 多目的多武装バンディットの最適性について検討する。
我々は,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
アルゴリズムは、対数設定において最適であり、同時に設定において対数係数までほぼ最適である。
- 参考スコア(独自算出の注目度): 22.17126026244685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Pareto optimality in multi-objective multi-armed bandit by providing
a formulation of adversarial multi-objective multi-armed bandit and defining
its Pareto regrets that can be applied to both stochastic and adversarial
settings. The regrets do not rely on any scalarization functions and reflect
Pareto optimality compared to scalarized regrets. We also present new
algorithms assuming both with and without prior information of the
multi-objective multi-armed bandit setting. The algorithms are shown optimal in
adversarial settings and nearly optimal up to a logarithmic factor in
stochastic settings simultaneously by our established upper bounds and lower
bounds on Pareto regrets. Moreover, the lower bound analyses show that the new
regrets are consistent with the existing Pareto regret for stochastic settings
and extend an adversarial attack mechanism from bandit to the multi-objective
one.
- Abstract(参考訳): 本研究では,多目的多目的多目的バンディットのパレート最適性を,対向多目的多目的バンディットの定式化と,対向的および対向的両方の設定に適用可能なパレートの後悔を定義することによって検討する。
後悔はいかなるスカラー化機能にも依存せず、スカラー化された後悔と比べてパレートの最適性を反映している。
また,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
これらのアルゴリズムは, 対数的設定において最適であり, 確率的設定における対数的要素までほぼ最適である。
さらに, 下部境界解析により, 新たな後悔は確率的設定に対する既存のパレートの後悔と一致し, バンディットから多目的攻撃へ敵意攻撃機構を拡張できることを示した。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Adaptive Algorithms for Relaxed Pareto Set Identification [12.326452468513228]
多目的多武装バンディットモデルにおけるパレート最適セットの固定信頼度同定を再検討する。
そこで我々は,Adaptive Pareto Exploration (Adaptive Pareto Exploration) と呼ばれる単一サンプリング手法を提案する。
我々はこれらの組み合わせのサンプルの複雑さを分析し、特にサンプルの複雑さの減少を定量化する。
論文 参考訳(メタデータ) (2023-07-01T20:43:12Z) - Learning the Pareto Front Using Bootstrapped Observation Samples [17.519167857253404]
本研究では,非支配的な平均報酬ベクトルを持つアームの集合を同定するアルゴリズムを提案する。
提案アルゴリズムのサンプル複雑性は対数係数まで最適である。
主要なコントリビューションは、新しい推定器で、ラウンド毎に、未知のパラメータの見積もりを複数のコンテキスト方向に沿って更新する。
論文 参考訳(メタデータ) (2023-05-31T18:15:09Z) - Slowly Changing Adversarial Bandit Algorithms are Efficient for
Discounted MDPs [10.68896183306706]
強化学習は、長期計画の地平線と未知の遷移カーネルのさらなる困難を伴って、多武装のバンディット問題を一般化する。
また, 無限水平割引マルコフ決定過程において, 逆帯域設定における最適後悔を達成するために, 徐々に変化する逆帯域設定アルゴリズムが最適後悔を達成できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:40:30Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。