論文の概要: Communication-Corruption Coupling and Verification in Cooperative Multi-Objective Bandits
- arxiv url: http://arxiv.org/abs/2601.11924v1
- Date: Sat, 17 Jan 2026 06:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.378854
- Title: Communication-Corruption Coupling and Verification in Cooperative Multi-Objective Bandits
- Title(参考訳): 協調的多目的帯域における通信共振結合と検証
- Authors: Ming Shi,
- Abstract要約: 敵の汚職と限定的検証の下で,ベクトル値の報奨を伴う協調的多腕包帯について検討した。
固定環境サイドの予算$$は、$$から$N$までの効果的な汚職レベルに変換できることを示す。
さらに、避けられない追加的な$()$ペナルティや、クリーンな情報なしではサブ線形後悔が不可能な高破壊体制$=(NT)$など、情報理論の限界を確立する。
- 参考スコア(独自算出の注目度): 2.1772197319352498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study cooperative stochastic multi-armed bandits with vector-valued rewards under adversarial corruption and limited verification. In each of $T$ rounds, each of $N$ agents selects an arm, the environment generates a clean reward vector, and an adversary perturbs the observed feedback subject to a global corruption budget $Γ$. Performance is measured by team regret under a coordinate-wise nondecreasing, $L$-Lipschitz scalarization $φ$, covering linear, Chebyshev, and smooth monotone utilities. Our main contribution is a communication-corruption coupling: we show that a fixed environment-side budget $Γ$ can translate into an effective corruption level ranging from $Γ$ to $NΓ$, depending on whether agents share raw samples, sufficient statistics, or only arm recommendations. We formalize this via a protocol-induced multiplicity functional and prove regret bounds parameterized by the resulting effective corruption. As corollaries, raw-sample sharing can suffer an $N$-fold larger additive corruption penalty, whereas summary sharing and recommendation-only sharing preserve an unamplified $O(Γ)$ term and achieve centralized-rate team regret. We further establish information-theoretic limits, including an unavoidable additive $Ω(Γ)$ penalty and a high-corruption regime $Γ=Θ(NT)$ where sublinear regret is impossible without clean information. Finally, we characterize how a global budget $ν$ of verified observations restores learnability. That is, verification is necessary in the high-corruption regime, and sufficient once it crosses the identification threshold, with certified sharing enabling the team's regret to become independent of $Γ$.
- Abstract(参考訳): 対向的腐敗と限定的検証の下で,ベクトル値の報酬を伴う協調確率的マルチアームバンドについて検討した。
それぞれの$T$ラウンドでは、N$エージェントが腕を選択し、環境がクリーンな報酬ベクターを生成し、敵がグローバルな汚職予算の対象となるフィードバックを妨害する。
コーディネート的に非減少し、$L$-Lipschitz scalarization $φ$で、線形、チェビシェフ、滑らかな単調なユーティリティをカバーしている。
固定された環境サイドの予算が、エージェントが生のサンプル、十分な統計、または腕のレコメンデーションを共有するかどうかによって、$$$から$Nal$までの効果的な汚職レベルに変換できることを示します。
プロトコルによって引き起こされる多重度関数によってこれを形式化し、結果として生じる効果的な汚職によってパラメータ化された後悔境界を証明する。
一方、要約共有とレコメンデーションのみの共有は、未増幅の$O()$タームを保持し、集中型のチームの後悔を達成します。
我々はさらに情報理論の限界を確立し、避けられない加法的な$Ω(?)$ペナルティと、クリーンな情報なしではサブ線形後悔が不可能な高破壊的レシメンデーション(英語版)($ )$(...)$(?)$)を含む。
最後に,グローバルな予算であるν$の検証観測が学習可能性の回復にどのように貢献するかを特徴付ける。
つまり、高い腐敗体制において検証は必要であり、それが識別しきい値を越えると十分であり、認定された共有によって、チームの後悔が1ドルから独立することを可能にします。
関連論文リスト
- Online Learning to Rank under Corruption: A Robust Cascading Bandits Approach [15.847551488328866]
オンライン学習は、大きなプールからランクの低い項目のリストを推薦する方法を研究し、ユーザークリックに基づいて将来のランキングを改善する。
この設定は一般的にカスケードバンドとしてモデル化され、ユーザが提示されたアイテムの少なくとも1つをクリックする可能性の最大化を目的としている。
そこで我々は,新しい医療平均推定器を組み込んだ頑健なアルゴリズムMSUCBを提案する。
論文 参考訳(メタデータ) (2025-11-04T23:39:37Z) - Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions [6.234292942334148]
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
論文 参考訳(メタデータ) (2024-11-12T20:20:26Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - CRIMED: Lower and Upper Bounds on Regret for Bandits with Unbounded
Stochastic Corruption [21.709840199725015]
任意の汚職を伴う多武装バンディット設定における後悔最小化問題について検討する。
CRIMED(CRIMED)は,既知分散を伴う帯域幅に対する後悔度を正確に低く抑えるアルゴリズムである。
特に、CRIMEDは$varepsilon$値が$frac12$の汚職を効果的に処理できる。
論文 参考訳(メタデータ) (2023-09-28T16:19:53Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to
Adversarial Corruptions [10.261123419337316]
我々は, 協調型マルチエージェント環境における逆転汚職を伴う盗賊の問題点について検討した。
問題では、報酬は全てのエージェントとラウンドの分布から独立してサンプリングされるが、敵によって破壊される可能性がある。
私たちの目標は、すべてのエージェントに対する全体的な後悔とコミュニケーションのコストを最小化することです。
論文 参考訳(メタデータ) (2021-06-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。