Fugu-MT 論文翻訳(概要): Pareto Regret Analyses in Multi-objective Multi-armed Bandit

論文の概要: Pareto Regret Analyses in Multi-objective Multi-armed Bandit

arxiv url: http://arxiv.org/abs/2212.00884v1
Date: Thu, 1 Dec 2022 21:44:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 16:02:51.246542
Title: Pareto Regret Analyses in Multi-objective Multi-armed Bandit
Title（参考訳）: 多目的マルチアームバンドにおけるパレートレグレス解析
Authors: Mengfan Xu, Diego Klabjan
Abstract要約: 対向多目的多目的バンディットの定式化と,パレートの後悔を適切に定義する。我々は,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。これらのアルゴリズムは, 対向的な設定で最適であり, 確立した上限によってほぼ同時に最適であることを示す。
参考スコア（独自算出の注目度）: 22.17126026244685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study Pareto optimality in multi-objective multi-armed bandit by providing a formulation of adversarial multi-objective multi-armed bandit and properly defining its Pareto regrets that can be generalized to stochastic settings as well. The regrets do not rely on any scalarization functions and reflect Pareto optimality compared to scalarized regrets. We also present new algorithms assuming both with and without prior information of the multi-objective multi-armed bandit setting. The algorithms are shown optimal in adversarial settings and nearly optimal in stochastic settings simultaneously by our established upper bounds and lower bounds on Pareto regrets. Moreover, the lower bound analyses show that the new regrets are consistent with the existing Pareto regret for stochastic settings and extend an adversarial attack mechanism from bandit to the multi-objective one.
Abstract（参考訳）: 本研究では,多目的多目的多腕バンディットの定式化と,そのパレートの後悔を確率的設定にも一般化し,多目的多腕バンディットのパレート最適性について検討する。後悔はいかなるスカラー化機能にも依存せず、スカラー化された後悔と比べてパレートの最適性を反映している。また,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。アルゴリズムは敵対的設定において最適であり、確率的設定において、我々が確立した上界と下界でパレート後悔を同時に行うのにほぼ最適である。さらに, 下部境界解析により, 新たな後悔は確率的設定に対する既存のパレートの後悔と一致し, バンディットから多目的攻撃へ敵意攻撃機構を拡張できることを示した。

関連論文リスト

Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm [6.046591474843391]
多目的マルチアームバンドイット(MO-MAB)問題は、オンライン最適化タスクに広く適用されている。我々は、対立する目的に対してバランスのとれたパフォーマンスを保証する、新しく包括的な後悔の指標を提案する。
論文参考訳（メタデータ） (2025-06-16T06:09:28Z)
Constrained Pareto Set Identification with Bandit Feedback [10.967572582187014]
意味不明の$Kの武器が与えられた場合、平均が他の腕よりも一様でない腕のセットを特定することが目的である。我々は固定信頼度同定に重点を置いており、レースのようなアルゴリズムを著しく上回るアルゴリズムを導入している。
論文参考訳（メタデータ） (2025-06-09T18:29:28Z)
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。 Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文参考訳（メタデータ） (2025-03-01T17:23:55Z)
Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題優雅にアマルガメートは、最小化とBAIを後悔している。エージェントの目標は、所定の信頼度で最高の腕を特定することである。二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文参考訳（メタデータ） (2024-09-27T16:46:02Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文参考訳（メタデータ） (2024-02-23T06:27:12Z)
Adaptive Algorithms for Relaxed Pareto Set Identification [12.326452468513228]
多目的多武装バンディットモデルにおけるパレート最適セットの固定信頼度同定を再検討する。そこで我々は,Adaptive Pareto Exploration (Adaptive Pareto Exploration) と呼ばれる単一サンプリング手法を提案する。我々はこれらの組み合わせのサンプルの複雑さを分析し、特にサンプルの複雑さの減少を定量化する。
論文参考訳（メタデータ） (2023-07-01T20:43:12Z)
Learning the Pareto Front Using Bootstrapped Observation Samples [17.519167857253404]
本研究では,非支配的な平均報酬ベクトルを持つアームの集合を同定するアルゴリズムを提案する。提案アルゴリズムのサンプル複雑性は対数係数まで最適である。主要なコントリビューションは、新しい推定器で、ラウンド毎に、未知のパラメータの見積もりを複数のコンテキスト方向に沿って更新する。
論文参考訳（メタデータ） (2023-05-31T18:15:09Z)
A Unifying Perspective on Multi-Calibration: Game Dynamics for Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文参考訳（メタデータ） (2023-02-21T18:24:17Z)
Slowly Changing Adversarial Bandit Algorithms are Efficient for Discounted MDPs [10.68896183306706]
強化学習は、長期計画の地平線と未知の遷移カーネルのさらなる困難を伴って、多武装のバンディット問題を一般化する。また, 無限水平割引マルコフ決定過程において, 逆帯域設定における最適後悔を達成するために, 徐々に変化する逆帯域設定アルゴリズムが最適後悔を達成できることを示す。
論文参考訳（メタデータ） (2022-05-18T16:40:30Z)
Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文参考訳（メタデータ） (2022-02-14T13:37:23Z)
Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文参考訳（メタデータ） (2021-11-17T01:59:15Z)
Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文参考訳（メタデータ） (2021-05-25T10:08:41Z)
Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文参考訳（メタデータ） (2020-06-22T16:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。