論文の概要: Online Fair Division with Contextual Bandits
- arxiv url: http://arxiv.org/abs/2408.12845v1
- Date: Fri, 23 Aug 2024 05:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:59:33.663828
- Title: Online Fair Division with Contextual Bandits
- Title(参考訳): コンテキストバンドによるオンラインフェアディビジョン
- Authors: Arun Verma, Indrajit Saha, Makoto Yokoo, Bryan Kian Hsiang Low,
- Abstract要約: 本稿では,学習者が不可分な項目を観察する複数のエージェントを含む,オンラインフェア分割問題について考察する。
既存のアルゴリズムは、十分な数のコピーを持つ少数のアイテムを仮定し、全てのアイテムとエージェントのペアに対して優れたユーティリティー推定を可能にする。
次に,オンラインフェアディビジョンのためのサブ線形後悔保証付きアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 41.57721032039409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers a novel online fair division problem involving multiple agents in which a learner observes an indivisible item that has to be irrevocably allocated to one of the agents while satisfying a fairness and efficiency constraint. Existing algorithms assume a small number of items with a sufficiently large number of copies, which ensures a good utility estimation for all item-agent pairs. However, such an assumption may not hold in many real-life applications, e.g., an online platform that has a large number of users (items) who only use the platform's service providers (agents) a few times (a few copies of items), which makes it difficult to estimate the utility for all item-agent pairs. To overcome this challenge, we model the online fair division problem using contextual bandits, assuming the utility is an unknown function of the item-agent features. We then propose algorithms for online fair division with sub-linear regret guarantees. Our experimental results also verify the different performance aspects of the proposed algorithms.
- Abstract(参考訳): 本稿では,学習者が公平さと効率の制約を満たしつつ,エージェントの1つに不当に割り当てなければならない不特定項目を観察する,複数のエージェントを含むオンラインフェア分割問題について考察する。
既存のアルゴリズムは、十分な数のコピーを持つ少数のアイテムを仮定し、全てのアイテムとエージェントのペアに対して優れたユーティリティー推定を可能にする。
しかし、そのような仮定は多くの現実的なアプリケーションには当てはまらないかもしれない。例えば、プラットフォームのサービスプロバイダ(エージェント)を数回(アイテムのコピー)しか使用していない多数のユーザ(item)を持つオンラインプラットフォームで、すべてのアイテムとエージェントのペアのユーティリティを見積もるのは困難である。
この課題を克服するために,提案手法がアイテムエージェントの機能の未知の機能であることを前提として,文脈的帯域幅を用いたオンラインフェアディビジョン問題をモデル化する。
次に,オンラインフェアディビジョンのためのサブ線形後悔保証付きアルゴリズムを提案する。
また,提案アルゴリズムの性能特性についても検証した。
関連論文リスト
- A Two-Stage Algorithm for Cost-Efficient Multi-instance Counterfactual Explanations [2.992602379681373]
本稿では,インスタンス群を探索し,コスト効率の高いマルチインスタンス対実説明を計算するためのフレキシブルな2段階アルゴリズムを提案する。
本稿では,提案アルゴリズムとその性能を,比較評価により評価する。
論文 参考訳(メタデータ) (2024-03-02T14:30:57Z) - Best Arm Identification in Batched Multi-armed Bandit Problems [3.908867017036043]
近年のマルチアームバンディット問題は、多くの実生活シナリオにおいて、腕をバッチでサンプリングする必要がある。
最適な腕の識別に異なる理論的設定の目的を組み込むことができる一般的な線形プログラミングフレームワークを導入する。
数値実験により,UCB型サンプリング法やトンプソン型サンプリング法と比較して,アルゴリズムの性能も良好であることを示した。
論文 参考訳(メタデータ) (2023-12-21T14:16:38Z) - A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。
この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。
我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2022-06-24T20:23:33Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - PROPm Allocations of Indivisible Goods to Multiple Agents [3.361550072563245]
本稿では,エージェント群間の不特定商品の集合を適切に割り当てる古典的問題を考察し,PROPmとして知られる近似比例性の概念に着目した。
PROPm割り当ては、エージェントや商品の数によらず、すべてのインスタンスに対して存在することが保証されていることを示す。
論文 参考訳(メタデータ) (2021-05-24T15:34:33Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - A SUPER* Algorithm to Optimize Paper Bidding in Peer Review [39.99497980352629]
本稿では,この目的のために,A*アルゴリズムにインスパイアされたSUPER*というアルゴリズムを提案する。
類似性に関するコミュニティモデルでは、SUPER*がほぼ最適であるのに対して、人気のあるベースラインはかなり最適であることを示す。
ICLR 2018の実際のデータと合成データの実験では、SUPER*が既存のシステムにデプロイされたベースラインを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-27T06:44:49Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。