論文の概要: Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm
- arxiv url: http://arxiv.org/abs/2506.13125v1
- Date: Mon, 16 Jun 2025 06:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.581268
- Title: Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm
- Title(参考訳): 確率的多目的多目的バンドバンド:レグレット定義とアルゴリズム
- Authors: Mansoor Davoodi, Setareh Maghsudi,
- Abstract要約: 多目的マルチアームバンドイット(MO-MAB)問題は、オンライン最適化タスクに広く適用されている。
我々は、対立する目的に対してバランスのとれたパフォーマンスを保証する、新しく包括的な後悔の指標を提案する。
- 参考スコア(独自算出の注目度): 6.046591474843391
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-armed bandit (MAB) problems are widely applied to online optimization tasks that require balancing exploration and exploitation. In practical scenarios, these tasks often involve multiple conflicting objectives, giving rise to multi-objective multi-armed bandits (MO-MAB). Existing MO-MAB approaches predominantly rely on the Pareto regret metric introduced in \cite{drugan2013designing}. However, this metric has notable limitations, particularly in accounting for all Pareto-optimal arms simultaneously. To address these challenges, we propose a novel and comprehensive regret metric that ensures balanced performance across conflicting objectives. Additionally, we introduce the concept of \textit{Efficient Pareto-Optimal} arms, which are specifically designed for online optimization. Based on our new metric, we develop a two-phase MO-MAB algorithm that achieves sublinear regret for both Pareto-optimal and efficient Pareto-optimal arms.
- Abstract(参考訳): マルチアームバンディット(MAB)問題は、探索とエクスプロイトのバランスを必要とするオンライン最適化タスクに広く適用されている。
現実的なシナリオでは、これらのタスクは複数の矛盾する目標を伴い、MO-MAB(multi-jective multi-armed bandits)を引き起こす。
既存のMO-MABアプローチは、主に \cite{drugan2013designing} で導入されたパレートの後悔の計量に依存する。
しかし、このメートル法には顕著な制限があり、特に全てのパレート・最適腕を同時に考慮している。
これらの課題に対処するために、対立する目標間でのバランスのとれたパフォーマンスを保証する、新しく包括的な後悔の指標を提案する。
さらに,オンライン最適化に特化して設計された <textit{Efficient Pareto-Optimal} アームの概念についても紹介する。
そこで我々は,2相MO-MABアルゴリズムを開発し,パレート最適と効率の良いパレート最適両腕に対するサブ線形後悔を実現する。
関連論文リスト
- Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。
本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。
Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文 参考訳(メタデータ) (2025-03-01T17:23:55Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Pareto Regret Analyses in Multi-objective Multi-armed Bandit [22.17126026244685]
多目的多武装バンディットの最適性について検討する。
我々は,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
アルゴリズムは、対数設定において最適であり、同時に設定において対数係数までほぼ最適である。
論文 参考訳(メタデータ) (2022-12-01T21:44:27Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。