論文の概要: Probe-then-Commit Multi-Objective Bandits: Theoretical Benefits of Limited Multi-Arm Feedback
- arxiv url: http://arxiv.org/abs/2602.03175v1
- Date: Tue, 03 Feb 2026 06:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.291733
- Title: Probe-then-Commit Multi-Objective Bandits: Theoretical Benefits of Limited Multi-Arm Feedback
- Title(参考訳): Probe-then-Commit Multi-Objective Bandits: 限定マルチアームフィードバックの理論的利点
- Authors: Ming Shi,
- Abstract要約: マルチラジオアクセス選択とモバイルエッジコンピューティングのオフロードによるオンラインリソース選択問題について検討する。
各ラウンドでエージェントは、$d$-dimensionalベクターのパフォーマンスを持つ$K$候補リンク/サーバを選択する。
我々は、楽観的なプローブ-then-commitアルゴリズムであるtextscPtC-P-UCB を開発した。
- 参考スコア(独自算出の注目度): 2.1772197319352498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an online resource-selection problem motivated by multi-radio access selection and mobile edge computing offloading. In each round, an agent chooses among $K$ candidate links/servers (arms) whose performance is a stochastic $d$-dimensional vector (e.g., throughput, latency, energy, reliability). The key interaction is \emph{probe-then-commit (PtC)}: the agent may probe up to $q>1$ candidates via control-plane measurements to observe their vector outcomes, but must execute exactly one candidate in the data plane. This limited multi-arm feedback regime strictly interpolates between classical bandits ($q=1$) and full-information experts ($q=K$), yet existing multi-objective learning theory largely focuses on these extremes. We develop \textsc{PtC-P-UCB}, an optimistic probe-then-commit algorithm whose technical core is frontier-aware probing under uncertainty in a Pareto mode, e.g., it selects the $q$ probes by approximately maximizing a hypervolume-inspired frontier-coverage potential and commits by marginal hypervolume gain to directly expand the attained Pareto region. We prove a dominated-hypervolume frontier error of $\tilde{O} (K_P d/\sqrt{qT})$, where $K_P$ is the Pareto-frontier size and $T$ is the horizon, and scalarized regret $\tilde{O} (L_φd\sqrt{(K/q)T})$, where $φ$ is the scalarizer. These quantify a transparent $1/\sqrt{q}$ acceleration from limited probing. We further extend to \emph{multi-modal probing}: each probe returns $M$ modalities (e.g., CSI, queue, compute telemetry), and uncertainty fusion yields variance-adaptive versions of the above bounds via an effective noise scale.
- Abstract(参考訳): マルチラジオアクセス選択とモバイルエッジコンピューティングのオフロードによるオンラインリソース選択問題について検討する。
各ラウンドにおいて、エージェントは、確率的な$d$次元ベクトル(例えば、スループット、レイテンシ、エネルギー、信頼性)のパフォーマンスを持つ$K$候補リンク/サーバ(アーム)を選択する。
Emph{probe-then-commit (PtC)}: エージェントはコントロールプレーンの測定により最大$q>1$の候補を探索し、ベクトルの結果を観測するが、データプレーンで正確に1つの候補を実行する必要がある。
この制限されたマルチアームフィードバックは、古典的な包帯(q=1$)と完全な情報の専門家(q=K$)の間に厳密に補間するが、既存のマルチオブジェクト学習理論は、主にこれらの極端に焦点を当てている。
我々は,パレートモードにおける不確実性に対処するフロンティア・アウェアを技術コアとする楽観的なプローブ・コミットアルゴリズムである「textsc{PtC-P-UCB}」を開発し,超体積インスパイアされたフロンティア・サーベイジ電位を近似的に最大化して$q$プローブを選択し,限界超体積ゲインにより限界超体積ゲインによりコミットし,取得したパレート領域を直接拡張する。
我々は、$\tilde{O} (K_P d/\sqrt{qT})$, $K_P$ はパレートフロンティアサイズであり、$T$ は地平線であり、スカラライズされた後悔 $\tilde{O} (L_φd\sqrt{(K/q)T})$, $φ$ はスカラライザである。
これらは、限られたプローブから1/\sqrt{q}$加速度を定量化する。
それぞれのプローブは$M$のモダリティ(例えば、CSI、キュー、計算テレメトリ)を返却し、不確実な融合は上記の境界の分散適応バージョンを有効雑音スケールで生成する。
関連論文リスト
- Multi-thresholding Good Arm Identification with Bandit Feedback [1.079960007119637]
我々は,多目的のバンドイット設定において,良好な腕識別問題を考える。
サンプル複雑性境界を持つマルチスレッド UCB (MultiTUCB) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-13T14:04:04Z) - Minimax-Optimal Multi-Agent Robust Reinforcement Learning [7.237817437521988]
我々は、生成モデルへのアクセスを前提として、Q-FTRLアルゴリズム citepli2022minimax を有限水平設定で RMG に拡張する。
提案アルゴリズムは$varepsilon$-robust coarse correlation equilibrium (CCE) を$widetildeOleft(H3Ssum_i=1mA_iminleftH,1/Rright/varepsilon2right) のサンプル複雑性(ログファクタまで)で達成している。
論文 参考訳(メタデータ) (2024-12-27T16:37:33Z) - Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。