論文の概要: Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application
to Joint Communications and Sensing
- arxiv url: http://arxiv.org/abs/2302.05257v2
- Date: Mon, 13 Feb 2023 09:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:33:03.500218
- Title: Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application
to Joint Communications and Sensing
- Title(参考訳): 断片的静止多目的多腕バンディットと関節通信・センシングへの応用
- Authors: Amir Rezaei Balef and Setareh Maghsudi
- Abstract要約: 本稿では,この問題を解決するために,変化検出を用いた汎用上信頼境界(UCB)に基づくアルゴリズムを提案する。
また,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
- 参考スコア(独自算出の注目度): 7.0997346625024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a multi-objective multi-armed bandit problem in a dynamic
environment. The problem portrays a decision-maker that sequentially selects an
arm from a given set. If selected, each action produces a reward vector, where
every element follows a piecewise-stationary Bernoulli distribution. The agent
aims at choosing an arm among the Pareto optimal set of arms to minimize its
regret. We propose a Pareto generic upper confidence bound (UCB)-based
algorithm with change detection to solve this problem. By developing the
essential inequalities for multi-dimensional spaces, we establish that our
proposal guarantees a regret bound in the order of $\gamma_T\log(T/{\gamma_T})$
when the number of breakpoints $\gamma_T$ is known. Without this assumption,
the regret bound of our algorithm is $\gamma_T\log(T)$. Finally, we formulate
an energy-efficient waveform design problem in an integrated communication and
sensing system as a toy example. Numerical experiments on the toy example and
synthetic and real-world datasets demonstrate the efficiency of our policy
compared to the current methods.
- Abstract(参考訳): 動的環境における多目的マルチアームバンディット問題について検討する。
この問題は、所定のセットから腕を順次選択する意思決定者を表す。
選択された場合、各作用は報酬ベクトルを生成し、各要素は片側定常ベルヌーイ分布に従う。
エージェントは、後悔を最小限に抑えるために、パレートの最適な腕の中から腕を選択することを目指している。
本稿では,この問題を解決するために,変更検出を伴うpareto general upper confidence bound (ucb) に基づくアルゴリズムを提案する。
多次元空間に対する本質的不等式を開発することにより、この提案は、ブレークポイントの数が$\gamma_T$であるときに、$\gamma_T\log(T/{\gamma_T})$の順序で後悔境界が保証される。
この仮定がなければ、我々のアルゴリズムの後悔境界は$\gamma_T\log(T)$である。
最後に,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
トイ例と合成および実世界のデータセットに関する数値実験は、現在の手法と比較して、我々のポリシーの効率性を示している。
関連論文リスト
- Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Breaking the $\log(1/Δ_2)$ Barrier: Better Batched Best Arm Identification with Adaptive Grids [28.547030766096956]
ほぼ最適なサンプル複雑性を実現するアルゴリズムを導入し、インスタンスに敏感なバッチ複雑性を特徴とする。
我々は、この枠組みを線形包帯におけるバッチ化されたベストアーム識別の問題に拡張し、同様の改善を実現する。
論文 参考訳(メタデータ) (2025-01-29T01:40:36Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。
目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。
我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文 参考訳(メタデータ) (2024-05-23T22:35:11Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits [9.333087475006003]
ProtoBanditは、ソースデータセットから情報的データインスタンスのコンパクトなセットを特定するための、マルチアームのBanditベースのフレームワークである。
提案アルゴリズムは,数桁の類似性計算コール数(100~1000倍)を削減し,最先端手法と同等の解を求める。
論文 参考訳(メタデータ) (2022-10-04T19:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。