論文の概要: Collaborative Min-Max Regret in Grouped Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2506.10313v1
- Date: Thu, 12 Jun 2025 02:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.544094
- Title: Collaborative Min-Max Regret in Grouped Multi-Armed Bandits
- Title(参考訳): グループ化されたマルチアーマッドバンドにおける協調的最小値レグレット
- Authors: Moïse Blanchard, Vineet Goyal,
- Abstract要約: グループ化環境での多腕バンディットにおける共有探索の効果について検討した。
グループ間の探索を動的にコーディネートするアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 6.675805308519987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the impact of sharing exploration in multi-armed bandits in a grouped setting where a set of groups have overlapping feasible action sets [Baek and Farias '24]. In this grouped bandit setting, groups share reward observations, and the objective is to minimize the collaborative regret, defined as the maximum regret across groups. This naturally captures applications in which one aims to balance the exploration burden between groups or populations -- it is known that standard algorithms can lead to significantly imbalanced exploration cost between groups. We address this problem by introducing an algorithm Col-UCB that dynamically coordinates exploration across groups. We show that Col-UCB achieves both optimal minimax and instance-dependent collaborative regret up to logarithmic factors. These bounds are adaptive to the structure of shared action sets between groups, providing insights into when collaboration yields significant benefits over each group learning their best action independently.
- Abstract(参考訳): 本研究では,複数の群が重なり合うアクションセット(Baek と Farias '24]を持つグループ環境で,マルチアームバンディットの共有探索が与える影響について検討する。
このグループ化されたバンドイット設定では、グループは報酬の観察を共有し、グループ間で最大の後悔と定義される共同後悔を最小限にすることを目的としている。
これにより、グループ間や集団間の探索負担のバランスを図り、標準アルゴリズムがグループ間の探索コストを著しく不均衡にする可能性があることが知られている。
グループ間の探索を動的にコーディネートするアルゴリズムCol-UCBを導入することでこの問題に対処する。
Col-UCBは最適最小値とインスタンス依存の協調的後悔を対数的要因まで達成できることを示す。
これらの境界は、グループ間で共有されたアクションセットの構造に適応し、各グループが独立して最高のアクションを学ぶことに対して、いつコラボレーションが大きな利益をもたらすかについての洞察を提供する。
関連論文リスト
- Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [24.590517939890788]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。
エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文 参考訳(メタデータ) (2023-05-30T06:35:49Z) - AGRO: Adversarial Discovery of Error-prone groups for Robust
Optimization [109.91265884632239]
群分散ロバスト最適化(G-DRO)は、トレーニングデータに対する事前定義されたグループのセットに対する最悪の損失を最小限にすることができる。
本稿では、分散ロバスト最適化のためのAGRO -- Adversarial Group Discoveryを提案する。
AGROは、既知の最悪のグループの平均モデルパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2022-12-02T00:57:03Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - GroupIM: A Mutual Information Maximization Framework for Neural Group
Recommendation [24.677145454396822]
本研究では,歴史的活動が限定的あるいは全くないユーザで構成された短命グループを対象とした項目推薦の課題について検討する。
現存する研究は、活動の歴史がかなりある永続的なグループをターゲットにしているが、短命なグループは歴史的な相互作用を欠いている。
本研究では、同一グループに属するユーザ間の嗜好共分散と、各グループに対する個人の嗜好の文脈的関連性の両方を活用するために、データ駆動型正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-06-05T23:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。