論文の概要: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
- arxiv url: http://arxiv.org/abs/2212.00884v1
- Date: Thu, 1 Dec 2022 21:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:02:51.246542
- Title: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
- Title(参考訳): 多目的マルチアームバンドにおけるパレートレグレス解析
- Authors: Mengfan Xu, Diego Klabjan
- Abstract要約: 対向多目的多目的バンディットの定式化と,パレートの後悔を適切に定義する。
我々は,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
これらのアルゴリズムは, 対向的な設定で最適であり, 確立した上限によってほぼ同時に最適であることを示す。
- 参考スコア(独自算出の注目度): 22.17126026244685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Pareto optimality in multi-objective multi-armed bandit by providing
a formulation of adversarial multi-objective multi-armed bandit and properly
defining its Pareto regrets that can be generalized to stochastic settings as
well. The regrets do not rely on any scalarization functions and reflect Pareto
optimality compared to scalarized regrets. We also present new algorithms
assuming both with and without prior information of the multi-objective
multi-armed bandit setting. The algorithms are shown optimal in adversarial
settings and nearly optimal in stochastic settings simultaneously by our
established upper bounds and lower bounds on Pareto regrets. Moreover, the
lower bound analyses show that the new regrets are consistent with the existing
Pareto regret for stochastic settings and extend an adversarial attack
mechanism from bandit to the multi-objective one.
- Abstract(参考訳): 本研究では,多目的多目的多腕バンディットの定式化と,そのパレートの後悔を確率的設定にも一般化し,多目的多腕バンディットのパレート最適性について検討する。
後悔はいかなるスカラー化機能にも依存せず、スカラー化された後悔と比べてパレートの最適性を反映している。
また,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
アルゴリズムは敵対的設定において最適であり、確率的設定において、我々が確立した上界と下界でパレート後悔を同時に行うのにほぼ最適である。
さらに, 下部境界解析により, 新たな後悔は確率的設定に対する既存のパレートの後悔と一致し, バンディットから多目的攻撃へ敵意攻撃機構を拡張できることを示した。
関連論文リスト
- Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Adaptive Algorithms for Relaxed Pareto Set Identification [12.326452468513228]
多目的多武装バンディットモデルにおけるパレート最適セットの固定信頼度同定を再検討する。
そこで我々は,Adaptive Pareto Exploration (Adaptive Pareto Exploration) と呼ばれる単一サンプリング手法を提案する。
我々はこれらの組み合わせのサンプルの複雑さを分析し、特にサンプルの複雑さの減少を定量化する。
論文 参考訳(メタデータ) (2023-07-01T20:43:12Z) - Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [23.710821382735077]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。
エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文 参考訳(メタデータ) (2023-05-30T06:35:49Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - Slowly Changing Adversarial Bandit Algorithms are Efficient for
Discounted MDPs [10.68896183306706]
強化学習は、長期計画の地平線と未知の遷移カーネルのさらなる困難を伴って、多武装のバンディット問題を一般化する。
また, 無限水平割引マルコフ決定過程において, 逆帯域設定における最適後悔を達成するために, 徐々に変化する逆帯域設定アルゴリズムが最適後悔を達成できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:40:30Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Diversity-Preserving K-Armed Bandits, Revisited [0.0]
本稿では,Celisらによって導入された多様性保全レコメンデーションのための,バンディットに基づくフレームワークについて考察する。
設定の具体的構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての動作に何らかの確率質量を与える場合の自然の場合において、分布依存的後悔を楽しむことを示す。
論文 参考訳(メタデータ) (2020-10-05T09:22:31Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。