論文の概要: Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application
to Joint Communications and Sensing
- arxiv url: http://arxiv.org/abs/2302.05257v2
- Date: Mon, 13 Feb 2023 09:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:33:03.500218
- Title: Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application
to Joint Communications and Sensing
- Title(参考訳): 断片的静止多目的多腕バンディットと関節通信・センシングへの応用
- Authors: Amir Rezaei Balef and Setareh Maghsudi
- Abstract要約: 本稿では,この問題を解決するために,変化検出を用いた汎用上信頼境界(UCB)に基づくアルゴリズムを提案する。
また,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
- 参考スコア(独自算出の注目度): 7.0997346625024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a multi-objective multi-armed bandit problem in a dynamic
environment. The problem portrays a decision-maker that sequentially selects an
arm from a given set. If selected, each action produces a reward vector, where
every element follows a piecewise-stationary Bernoulli distribution. The agent
aims at choosing an arm among the Pareto optimal set of arms to minimize its
regret. We propose a Pareto generic upper confidence bound (UCB)-based
algorithm with change detection to solve this problem. By developing the
essential inequalities for multi-dimensional spaces, we establish that our
proposal guarantees a regret bound in the order of $\gamma_T\log(T/{\gamma_T})$
when the number of breakpoints $\gamma_T$ is known. Without this assumption,
the regret bound of our algorithm is $\gamma_T\log(T)$. Finally, we formulate
an energy-efficient waveform design problem in an integrated communication and
sensing system as a toy example. Numerical experiments on the toy example and
synthetic and real-world datasets demonstrate the efficiency of our policy
compared to the current methods.
- Abstract(参考訳): 動的環境における多目的マルチアームバンディット問題について検討する。
この問題は、所定のセットから腕を順次選択する意思決定者を表す。
選択された場合、各作用は報酬ベクトルを生成し、各要素は片側定常ベルヌーイ分布に従う。
エージェントは、後悔を最小限に抑えるために、パレートの最適な腕の中から腕を選択することを目指している。
本稿では,この問題を解決するために,変更検出を伴うpareto general upper confidence bound (ucb) に基づくアルゴリズムを提案する。
多次元空間に対する本質的不等式を開発することにより、この提案は、ブレークポイントの数が$\gamma_T$であるときに、$\gamma_T\log(T/{\gamma_T})$の順序で後悔境界が保証される。
この仮定がなければ、我々のアルゴリズムの後悔境界は$\gamma_T\log(T)$である。
最後に,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
トイ例と合成および実世界のデータセットに関する数値実験は、現在の手法と比較して、我々のポリシーの効率性を示している。
関連論文リスト
- A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文 参考訳(メタデータ) (2024-09-08T12:19:12Z) - Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。
目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。
我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文 参考訳(メタデータ) (2024-05-23T22:35:11Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits [9.333087475006003]
ProtoBanditは、ソースデータセットから情報的データインスタンスのコンパクトなセットを特定するための、マルチアームのBanditベースのフレームワークである。
提案アルゴリズムは,数桁の類似性計算コール数(100~1000倍)を削減し,最先端手法と同等の解を求める。
論文 参考訳(メタデータ) (2022-10-04T19:03:47Z) - A New Look at Dynamic Regret for Non-Stationary Stochastic Bandits [11.918230810566945]
本研究では,学習過程において各腕の報酬統計が数回変化しうる非定常的マルチアームバンディット問題について検討する。
我々は、$K$の武器付きバンディット問題において、ほぼ最適の$widetilde O(sqrtK N(S+1))$ dynamic regretを実現する方法を提案する。
論文 参考訳(メタデータ) (2022-01-17T17:23:56Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。