論文の概要: Online Allocation and Learning in the Presence of Strategic Agents
- arxiv url: http://arxiv.org/abs/2209.12112v1
- Date: Sun, 25 Sep 2022 00:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:04:07.744471
- Title: Online Allocation and Learning in the Presence of Strategic Agents
- Title(参考訳): 戦略エージェントの存在下でのオンラインアロケーションと学習
- Authors: Steven Yin, Shipra Agrawal, Assaf Zeevi
- Abstract要約: 我々は,各エージェントが予め指定された各項目の分数を受けなければならないという制約の下で,$n$均質なエージェントのうち,$T$が順次到着するアイテムを割り当てる問題について検討する。
私たちの主な貢献は、ほぼベイズ的インセンティブ互換のオンライン学習ベースのアロケーションメカニズムです。
- 参考スコア(独自算出の注目度): 16.124755488878044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of allocating $T$ sequentially arriving items among $n$
homogeneous agents under the constraint that each agent must receive a
pre-specified fraction of all items, with the objective of maximizing the
agents' total valuation of items allocated to them. The agents' valuations for
the item in each round are assumed to be i.i.d. but their distribution is a
priori unknown to the central planner. Therefore, the central planner needs to
implicitly learn these distributions from the observed values in order to pick
a good allocation policy. However, an added challenge here is that the agents
are strategic with incentives to misreport their valuations in order to receive
better allocations. This sets our work apart both from the online auction
design settings which typically assume known valuation distributions and/or
involve payments, and from the online learning settings that do not consider
strategic agents. To that end, our main contribution is an online learning
based allocation mechanism that is approximately Bayesian incentive compatible,
and when all agents are truthful, guarantees a sublinear regret for individual
agents' utility compared to that under the optimal offline allocation policy.
- Abstract(参考訳): 各エージェントが各エージェントに割り当てられたアイテムの合計評価を最大化するために、各アイテムの事前指定分数を受信しなければならないという制約の下で、n$ 等質エージェントの中から順次到着するアイテムに$t$を割り当てる問題について検討する。
各ラウンドにおける各項目のエージェントのバリュエーションは、i.d.と仮定されるが、その分布は中央プランナーに未知である。
したがって、中央プランナーは、適切なアロケーションポリシーを選択するために、観測値からこれらの分布を暗黙的に学習する必要がある。
しかし、ここでの課題は、エージェントがより優れたアロケーションを受けるために、評価を誤って報告するインセンティブを持つ戦略的なことだ。
これは、通常、既知の評価分布や支払いを前提とするオンラインオークションデザイン設定と、戦略的エージェントを考慮しないオンライン学習設定とを区別します。
この目的のために,我々は,ほぼベイズ的インセンティブに適合するオンライン学習に基づく割当て機構を主に貢献しており,すべてのエージェントが真理を持つ場合,最適なオフライン割当てポリシーの下では,個々のエージェントのユーティリティに対して,サブリニアな後悔を保証している。
関連論文リスト
- On the Hardness of Decentralized Multi-Agent Policy Evaluation under Byzantine Attacks [12.696705862929337]
完全分散型マルチエージェント政策評価問題について,最大$f$の障害エージェントの存在下で検討する。
特に、モデル中毒設定を伴ういわゆるビザンツの欠陥モデルに焦点を当てる。
論文 参考訳(メタデータ) (2024-09-19T16:27:08Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - DM$^2$: Distributed Multi-Agent Reinforcement Learning for Distribution
Matching [43.58408474941208]
本稿では,明示的なコーディネーション方式を使わずに,分散マルチエージェント学習の課題を考察する。
各エージェントは、共同専門家ポリシーから同時にサンプリングされた軌道の目標分布と一致する。
StarCraftドメインでの実験的検証は、分散の報酬と環境の報酬を組み合わせることで、エージェントが完全に分散されたベースラインより優れたパフォーマンスを発揮することを示している。
論文 参考訳(メタデータ) (2022-06-01T04:57:50Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。