論文の概要: Learning to Bid Long-Term: Multi-Agent Reinforcement Learning with
Long-Term and Sparse Reward in Repeated Auction Games
- arxiv url: http://arxiv.org/abs/2204.02268v1
- Date: Tue, 5 Apr 2022 15:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:51:01.722361
- Title: Learning to Bid Long-Term: Multi-Agent Reinforcement Learning with
Long-Term and Sparse Reward in Repeated Auction Games
- Title(参考訳): 長期にわたる学習: 繰り返し競売競技における長期・スパースリワードによるマルチエージェント強化学習
- Authors: Jing Tan and Ramin Khalili and Holger Karl
- Abstract要約: 本稿では,潜在的に競合する短期報酬と,遅延した長期報酬のバランスをとるマルチエージェント分散強化学習アルゴリズムを提案する。
我々は、個人報酬と社会福祉全体の最大化のためにアルゴリズムにインセンティブを与えるために、異なる長期報酬を比較した。
- 参考スコア(独自算出の注目度): 5.865500664175491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a multi-agent distributed reinforcement learning algorithm that
balances between potentially conflicting short-term reward and sparse, delayed
long-term reward, and learns with partial information in a dynamic environment.
We compare different long-term rewards to incentivize the algorithm to maximize
individual payoff and overall social welfare. We test the algorithm in two
simulated auction games, and demonstrate that 1) our algorithm outperforms two
benchmark algorithms in a direct competition, with cost to social welfare, and
2) our algorithm's aggressive competitive behavior can be guided with the
long-term reward signal to maximize both individual payoff and overall social
welfare.
- Abstract(参考訳): 本研究では,短期的報酬と分散的報酬のバランスをとるマルチエージェント分散強化学習アルゴリズムを提案し,動的環境において部分的情報を用いて学習する。
我々は、個人報酬と社会福祉全体の最大化のためにアルゴリズムにインセンティブを与えるために、異なる長期報酬を比較する。
2つの模擬オークションゲームでアルゴリズムをテストし、それを実証する。
1)本アルゴリズムは,社会福祉に費用がかかる直接競争において,ベンチマークアルゴリズムを2つ上回る。
2) アルゴリズムの積極的な競争行動は, 個人報酬と社会福祉の両面を最大化するために, 長期報酬信号で導かれる。
関連論文リスト
- A Robust Mixed-Effects Bandit Algorithm for Assessing Mobile Health Interventions [39.8207428422509]
DML-TS-NNR(DML-TS-NNR)は、モバイルヘルス介入のためのコンテキスト的帯域幅アルゴリズムである。
参加者の不均一性、非定常性、報酬の非線形性といった問題に対処する。
そこで本研究では,DML-TS-NNRアルゴリズムのシミュレーションおよび2つのオフ政治評価研究において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:24:24Z) - Impatient Bandits: Optimizing Recommendations for the Long-Term Without
Delay [29.23091752603817]
本稿では,遅延報酬を伴うマルチアームバンディット問題として定式化したコンテンツ探索課題について検討する。
これまでに得られたすべての情報を組み込んだ遅延報酬の予測モデルを開発した。
提案手法をポッドキャストレコメンデーション問題に適用し,ユーザが2ヶ月以上繰り返し参加する番組を特定する。
論文 参考訳(メタデータ) (2023-07-19T12:35:16Z) - Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics [53.62091043347035]
オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。
本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T21:59:30Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Optimal and Efficient Algorithms for General Mixable Losses against
Switching Oracles [0.0]
動的環境における混合損失関数のオンライン最適化について検討する。
我々の結果は、個々のシーケンス方式で強い決定論的意味を持つことが保証されている。
論文 参考訳(メタデータ) (2021-08-13T21:48:55Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。