Fugu-MT 論文翻訳(概要): Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing

論文の概要: Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing

arxiv url: http://arxiv.org/abs/2302.05257v2
Date: Mon, 13 Feb 2023 09:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 11:33:03.500218
Title: Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing
Title（参考訳）: 断片的静止多目的多腕バンディットと関節通信・センシングへの応用
Authors: Amir Rezaei Balef and Setareh Maghsudi
Abstract要約: 本稿では,この問題を解決するために,変化検出を用いた汎用上信頼境界(UCB)に基づくアルゴリズムを提案する。また,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
参考スコア（独自算出の注目度）: 7.0997346625024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a multi-objective multi-armed bandit problem in a dynamic environment. The problem portrays a decision-maker that sequentially selects an arm from a given set. If selected, each action produces a reward vector, where every element follows a piecewise-stationary Bernoulli distribution. The agent aims at choosing an arm among the Pareto optimal set of arms to minimize its regret. We propose a Pareto generic upper confidence bound (UCB)-based algorithm with change detection to solve this problem. By developing the essential inequalities for multi-dimensional spaces, we establish that our proposal guarantees a regret bound in the order of $\gamma_T\log(T/{\gamma_T})$ when the number of breakpoints $\gamma_T$ is known. Without this assumption, the regret bound of our algorithm is $\gamma_T\log(T)$. Finally, we formulate an energy-efficient waveform design problem in an integrated communication and sensing system as a toy example. Numerical experiments on the toy example and synthetic and real-world datasets demonstrate the efficiency of our policy compared to the current methods.
Abstract（参考訳）: 動的環境における多目的マルチアームバンディット問題について検討する。この問題は、所定のセットから腕を順次選択する意思決定者を表す。選択された場合、各作用は報酬ベクトルを生成し、各要素は片側定常ベルヌーイ分布に従う。エージェントは、後悔を最小限に抑えるために、パレートの最適な腕の中から腕を選択することを目指している。本稿では,この問題を解決するために,変更検出を伴うpareto general upper confidence bound (ucb) に基づくアルゴリズムを提案する。多次元空間に対する本質的不等式を開発することにより、この提案は、ブレークポイントの数が$\gamma_T$であるときに、$\gamma_T\log(T/{\gamma_T})$の順序で後悔境界が保証される。この仮定がなければ、我々のアルゴリズムの後悔境界は$\gamma_T\log(T)$である。最後に,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。トイ例と合成および実世界のデータセットに関する数値実験は、現在の手法と比較して、我々のポリシーの効率性を示している。

関連論文リスト

Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文参考訳（メタデータ） (2025-09-04T13:16:32Z)
Influential Bandits: Pulling an Arm May Change the Environment [44.71145269686588]
現実世界のアプリケーションは、しばしば非定常環境と武器間の相互依存を含む。本稿では,未知の,対称な正の半定値相互作用行列による腕間相互作用をモデル化する,影響力のあるバンドイット問題を提案する。我々は,損失ダイナミクスの構造に合わせて,低信頼境界(LCB)推定器に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-11T02:05:51Z)
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。 Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文参考訳（メタデータ） (2025-03-01T17:23:55Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文参考訳（メタデータ） (2024-09-08T12:19:12Z)
Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文参考訳（メタデータ） (2024-05-23T22:35:11Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
Distributed Consensus Algorithm for Decision-Making in Multi-agent Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文参考訳（メタデータ） (2023-06-09T16:10:26Z)
Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文参考訳（メタデータ） (2023-03-30T02:51:00Z)
Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-21T00:17:24Z)
ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits [9.333087475006003]
ProtoBanditは、ソースデータセットから情報的データインスタンスのコンパクトなセットを特定するための、マルチアームのBanditベースのフレームワークである。提案アルゴリズムは,数桁の類似性計算コール数(100～1000倍)を削減し,最先端手法と同等の解を求める。
論文参考訳（メタデータ） (2022-10-04T19:03:47Z)
A New Look at Dynamic Regret for Non-Stationary Stochastic Bandits [11.918230810566945]
本研究では,学習過程において各腕の報酬統計が数回変化しうる非定常的マルチアームバンディット問題について検討する。我々は、$K$の武器付きバンディット問題において、ほぼ最適の$widetilde O(sqrtK N(S+1))$ dynamic regretを実現する方法を提案する。
論文参考訳（メタデータ） (2022-01-17T17:23:56Z)
Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文参考訳（メタデータ） (2020-08-10T08:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。