論文の概要: Collaborative Linear Bandits with Adversarial Agents: Near-Optimal
Regret Bounds
- arxiv url: http://arxiv.org/abs/2206.02834v1
- Date: Mon, 6 Jun 2022 18:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 09:44:00.584932
- Title: Collaborative Linear Bandits with Adversarial Agents: Near-Optimal
Regret Bounds
- Title(参考訳): 対向剤を用いた協調線形帯域:準最適回帰境界
- Authors: Aritra Mitra, Arman Adibi, George J. Pappas, and Hamed Hassani
- Abstract要約: 我々は, 後悔を最小限に抑えるために, 中央サーバを介して協調できる$M$エージェントを含む線形帯域幅問題を考える。
これらのエージェントのわずか$alpha$は敵対的であり、任意に作用し、次の緊張に繋がる。
我々は、厳密な信頼区間を慎重に構築し、探索と探索のトレードオフをバランスさせる新しいアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 31.5504566292927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a linear stochastic bandit problem involving $M$ agents that can
collaborate via a central server to minimize regret. A fraction $\alpha$ of
these agents are adversarial and can act arbitrarily, leading to the following
tension: while collaboration can potentially reduce regret, it can also disrupt
the process of learning due to adversaries. In this work, we provide a
fundamental understanding of this tension by designing new algorithms that
balance the exploration-exploitation trade-off via carefully constructed robust
confidence intervals. We also complement our algorithms with tight analyses.
First, we develop a robust collaborative phased elimination algorithm that
achieves $\tilde{O}\left(\alpha+ 1/\sqrt{M}\right) \sqrt{dT}$ regret for each
good agent; here, $d$ is the model-dimension and $T$ is the horizon. For small
$\alpha$, our result thus reveals a clear benefit of collaboration despite
adversaries. Using an information-theoretic argument, we then prove a matching
lower bound, thereby providing the first set of tight, near-optimal regret
bounds for collaborative linear bandits with adversaries. Furthermore, by
leveraging recent advances in high-dimensional robust statistics, we
significantly extend our algorithmic ideas and results to (i) the generalized
linear bandit model that allows for non-linear observation maps; and (ii) the
contextual bandit setting that allows for time-varying feature vectors.
- Abstract(参考訳): 我々は, 後悔を最小限に抑えるために, 中央サーバを介して協調できるM$エージェントを含む線形確率的盗賊問題を考える。
これらのエージェントのわずかな$\alpha$は、敵対的であり、任意に振る舞うことができ、次の緊張に繋がる。
本研究は, 厳密な信頼区間を慎重に構築し, 探索・探索トレードオフのバランスをとる新しいアルゴリズムを設計することによって, この緊張関係を根本的に理解するものである。
また、厳密な分析でアルゴリズムを補完します。
まず,各エージェントに対して$\tilde{o}\left(\alpha+ 1/\sqrt{m}\right) \sqrt{dt}$ regret for each good agent; ここで,$d$ はモデル次元であり,$t$ は水平方向である。
小さい$\alpha$の場合、この結果は敵対者にもかかわらずコラボレーションの明確な利点を示します。
情報理論的な議論を用いて、一致する下限を証明し、敵と協調する線形バンディットに対して、最初の厳密で最適に近い後悔境界を与える。
さらに,近年の高次元ロバスト統計学の進歩を活かし,アルゴリズムの考え方と結果を大きく拡張した。
(i)非線形観測マップを可能にする一般化線形帯域モデル、及び
(ii)時変特徴ベクトルを可能にする文脈的バンディット設定。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - A Simple and Provably Efficient Algorithm for Asynchronous Federated
Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。
すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。
texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文 参考訳(メタデータ) (2022-07-07T06:16:19Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。