論文の概要: Deep Reinforcement Learning for Sequential Combinatorial Auctions
- arxiv url: http://arxiv.org/abs/2407.08022v1
- Date: Wed, 10 Jul 2024 20:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:39:04.173203
- Title: Deep Reinforcement Learning for Sequential Combinatorial Auctions
- Title(参考訳): 逐次アベレーショナルオークションのための深層強化学習
- Authors: Sai Srivatsa Ravindranath, Zhe Feng, Di Wang, Manzil Zaheer, Aranyak Mehta, David C. Parkes,
- Abstract要約: 収益-最適オークションデザインは、重要な理論的および実践的な意味を持つ難しい問題である。
本稿では,一階勾配を利用した逐次オークションに適した新しい強化学習フレームワークを提案する。
提案手法は,分析ベースラインと標準強化学習アルゴリズムの両方に対して,収益の大幅な向上を実現する。
- 参考スコア(独自算出の注目度): 40.89021064082742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Revenue-optimal auction design is a challenging problem with significant theoretical and practical implications. Sequential auction mechanisms, known for their simplicity and strong strategyproofness guarantees, are often limited by theoretical results that are largely existential, except for certain restrictive settings. Although traditional reinforcement learning methods such as Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) are applicable in this domain, they struggle with computational demands and convergence issues when dealing with large and continuous action spaces. In light of this and recognizing that we can model transitions differentiable for our settings, we propose using a new reinforcement learning framework tailored for sequential combinatorial auctions that leverages first-order gradients. Our extensive evaluations show that our approach achieves significant improvement in revenue over both analytical baselines and standard reinforcement learning algorithms. Furthermore, we scale our approach to scenarios involving up to 50 agents and 50 items, demonstrating its applicability in complex, real-world auction settings. As such, this work advances the computational tools available for auction design and contributes to bridging the gap between theoretical results and practical implementations in sequential auction design.
- Abstract(参考訳): 収益-最適オークションデザインは、重要な理論的および実践的な意味を持つ難しい問題である。
一連のオークション機構は、その単純さと強力な戦略的防御性によって知られており、特定の制限的な設定を除いて、ほとんど存在する理論的な結果によって制限されることが多い。
PPO(Proximal Policy Optimization)やSAC(Soft Actor-Critic)といった従来の強化学習手法はこの領域に適用できるが、大規模かつ連続的なアクション空間を扱う際には、計算要求や収束の問題に悩まされる。
これを考慮し、我々の設定で微分可能な遷移をモデル化できることを認識し、一階勾配を利用した逐次組合せオークションに適した新しい強化学習フレームワークを提案する。
提案手法は,分析ベースラインと標準強化学習アルゴリズムを併用して,収益の大幅な向上を図っている。
さらに,50個のエージェントと50個のアイテムを含むシナリオにアプローチを拡大し,複雑な実世界のオークション設定で適用可能性を示す。
このように、この研究は、オークション設計に利用可能な計算ツールを進歩させ、シーケンシャルオークション設計における理論結果と実践的実装のギャップを埋めることに貢献している。
関連論文リスト
- Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning [1.0762853848552156]
我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。
これらのエージェントは,2つのシミュレーションベンチマークから,過大評価,過度適合,可塑性損失に関連するトレーニング指標を測定した。
ソフトアクター・クライブエージェントは、適切に正規化され、トレーニング体制内でより優れたパフォーマンスのポリシーを確実に見つける。
論文 参考訳(メタデータ) (2024-03-01T13:25:10Z) - Understanding Iterative Combinatorial Auction Designs via Multi-Agent Reinforcement Learning [10.41350502488723]
我々は,反復オークションを理解するためにマルチエージェント強化学習アルゴリズムを利用できるか検討する。
MARLは本当にオークション分析の恩恵を受けることができるが、効果的にデプロイすることは簡単ではない。
クロックオークションにおける特定のルール変更を評価するために,提案手法を用いた提案手法の有効性について述べる。
論文 参考訳(メタデータ) (2024-02-29T18:16:13Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Bayesian Optimization-based Combinatorial Assignment [10.73407470973258]
オークションやコースアロケーションを含むアサインドメインについて検討する。
この領域の主な課題は、バンドル空間がアイテム数で指数関数的に増加することである。
論文 参考訳(メタデータ) (2022-08-31T08:47:02Z) - A Context-Integrated Transformer-Based Neural Network for Auction Design [25.763612577196124]
オークションデザインにおける中心的な問題の1つは、競売人の予想収益を最大化するインセンティブに適合するメカニズムを開発することである。
最適なオークション設計のためのコンテクスト積分変換器ベースニューラルネットワークである$mathtCITransNet$を提案する。
我々は、$mathttCITransNet$が、シングルイット設定で既知の最適解を回復し、マルチイットオークションで強いベースラインを上回り、トレーニング中以外のケースによく当てはまることを示す。
論文 参考訳(メタデータ) (2022-01-29T03:47:00Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。