論文の概要: Smooth markets: A basic mechanism for organizing gradient-based learners
- arxiv url: http://arxiv.org/abs/2001.04678v2
- Date: Sat, 18 Jan 2020 09:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 11:47:09.516480
- Title: Smooth markets: A basic mechanism for organizing gradient-based learners
- Title(参考訳): スムースマーケット:勾配学習者の組織化のための基礎的メカニズム
- Authors: David Balduzzi, Wojciech M Czarnecki, Thomas W Anthony, Ian M Gemp,
Edward Hughes, Joel Z Leibo, Georgios Piliouras, Thore Graepel
- Abstract要約: スムーズマーケット(SM-games)は、対角にゼロ和の相互作用を持つn-プレイヤゲームの一種である。
SMゲームは、(一部)GAN、敵対的トレーニング、その他の最近のアルゴリズムを含む、機械学習における一般的なデザインパターンを符号化する。
SMゲームは1次手法を用いて解析と最適化が可能であることを示す。
- 参考スコア(独自算出の注目度): 47.34060971879986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of modern machine learning, it is becoming increasingly
important to understand and control how learning algorithms interact.
Unfortunately, negative results from game theory show there is little hope of
understanding or controlling general n-player games. We therefore introduce
smooth markets (SM-games), a class of n-player games with pairwise zero sum
interactions. SM-games codify a common design pattern in machine learning that
includes (some) GANs, adversarial training, and other recent algorithms. We
show that SM-games are amenable to analysis and optimization using first-order
methods.
- Abstract(参考訳): 現代の機械学習の成功により、学習アルゴリズムの相互作用の理解と制御がますます重要になっている。
残念なことに、ゲーム理論の否定的な結果から、一般的なnプレイヤーゲームを理解したり制御したりする見込みはほとんどないことが示されている。
そこで我々は,ペアワイズゼロサムインタラクションのnプレイヤーゲームであるsmooth markets (sm-games)を導入する。
SMゲームは、(一部)GAN、敵対的トレーニング、その他の最近のアルゴリズムを含む、機械学習における一般的なデザインパターンを符号化する。
SMゲームは1次手法を用いて解析と最適化が可能であることを示す。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Strategizing against Learners in Bayesian Games [74.46970859427907]
プレイヤーの1人である学習者が無学習の学習戦略を採用する2人プレイヤゲームについて検討した。
一般のベイズゲームでは,学習者と学習者の双方の報酬の支払いが,そのタイプに依存する可能性がある。
論文 参考訳(メタデータ) (2022-05-17T18:10:25Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - DREAM: Deep Regret minimization with Advantage baselines and Model-free
learning [24.273841968933475]
我々は,複数のエージェントを用いた不完全情報ゲームにおいて,最適な戦略を求めるディープ強化学習アルゴリズムであるDREAMを紹介する。
我々の主要な革新は、他の後悔に基づくディープラーニングアルゴリズムとは対照的に、優れたパフォーマンスを達成するために、ゲームの完璧なシミュレータにアクセスする必要のない効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2020-06-18T10:30:27Z) - Games for Fairness and Interpretability [2.084078990567849]
フェアネスと解釈可能性のためのゲーム」という新しい種類のゲームを提案する。
フェアネスと解釈可能性のゲームは、大衆的アピールを伴う慎重に設計されたゲームである。
ゲームの可能性のいくつか、公平性と解釈可能性に対する影響、そして機械学習コミュニティがそれらから恩恵を受けることができる理由を強調した。
論文 参考訳(メタデータ) (2020-04-20T18:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。