論文の概要: Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2506.14988v1
- Date: Tue, 17 Jun 2025 21:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.490269
- Title: Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
- Title(参考訳): マルチエージェントマルチアーマッド帯域の探索による公正アルゴリズム
- Authors: Tianyi Xu, Jiaxin Liu, Zizhan Zheng,
- Abstract要約: 我々は、割り当て前に選択した武器に関する情報を戦略的に収集する新しい探索フレームワークを導入する。
報奨分布が知られているオフライン環境では、準モジュラ特性を利用して、証明可能な性能境界を持つ欲求探索アルゴリズムを設計する。
より複雑なオンライン設定では、公平性を維持しながらサブ線形後悔を実現するアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 5.512870638024123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
- Abstract(参考訳): 本稿では,エージェント間の公正な結果を保証するとともに,システム全体の性能を最大化することを目的としたマルチエージェントマルチアーム・バンディット(MA-MAB)フレームワークを提案する。
この設定における重要な課題は、腕の報酬に関する限られた情報の下での意思決定である。
そこで本研究では,選択した武器に関する情報を戦略的に収集する新しい探索フレームワークを提案する。
報奨分布が知られているオフライン環境では、準モジュラ特性を利用して、証明可能な性能境界を持つ欲求探索アルゴリズムを設計する。
より複雑なオンライン設定では、公平性を維持しながらサブ線形後悔を実現するアルゴリズムを開発する。
合成および実世界のデータセットに対する大規模な実験により、我々のアプローチはベースライン法よりも優れ、公正性と効率性が向上することが示された。
関連論文リスト
- Representative Action Selection for Large Action-Space Meta-Bandits [49.386906771833274]
バンドイットの族が共有する大きなアクション空間からサブセットを選択する問題について検討する。
我々は、同様の行動がガウス過程によってモデル化された関連する報酬を持つ傾向があると仮定する。
代表サブセットを選択するための簡単なepsilon-netアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-23T18:08:57Z) - Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。
本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。
M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文 参考訳(メタデータ) (2024-08-10T16:09:51Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Distributed Stochastic Bandit Learning with Context Distributions [0.0]
本研究では,未知のコンテキストを持つ分散マルチアームコンテキスト帯域幅の問題について検討する。
本モデルでは, エージェントはコンテキスト分布のみを観察し, エージェントに正確なコンテキストが不明である。
我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。
論文 参考訳(メタデータ) (2022-07-28T22:00:11Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。
我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文 参考訳(メタデータ) (2021-02-19T18:36:03Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。