論文の概要: Robust Market Making via Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.01820v2
- Date: Wed, 8 Jul 2020 15:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 21:39:52.478438
- Title: Robust Market Making via Adversarial Reinforcement Learning
- Title(参考訳): 対人強化学習によるロバスト市場形成
- Authors: Thomas Spooner, Rahul Savani
- Abstract要約: 敵の強化学習は、敵対的かつ適応的な市場条件に頑健な市場マーキングエージェントを作成するのに有効であることを示す。
我々はARL法が一貫して収束していることを示し、単純化された単一ステージゲームにおいて、収束するプロファイルがナッシュ平衡に対応することをいくつかの特別なケースで証明する。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that adversarial reinforcement learning (ARL) can be used to produce
market marking agents that are robust to adversarial and adaptively-chosen
market conditions. To apply ARL, we turn the well-studied single-agent model of
Avellaneda and Stoikov [2008] into a discrete-time zero-sum game between a
market maker and adversary. The adversary acts as a proxy for other market
participants that would like to profit at the market maker's expense. We
empirically compare two conventional single-agent RL agents with ARL, and show
that our ARL approach leads to: 1) the emergence of risk-averse behaviour
without constraints or domain-specific penalties; 2) significant improvements
in performance across a set of standard metrics, evaluated with or without an
adversary in the test environment, and; 3) improved robustness to model
uncertainty. We empirically demonstrate that our ARL method consistently
converges, and we prove for several special cases that the profiles that we
converge to correspond to Nash equilibria in a simplified single-stage game.
- Abstract(参考訳): 本稿では, 対人強化学習(ARL)を用いて, 対人的かつ適応的な市場条件に頑健な市場マーキングエージェントを作成できることを示す。
ARLを適用するために、Avellaneda と Stoikov [2008] のよく研究された単一エージェントモデルを、市場メーカーと敵の間の離散時間ゼロサムゲームに変換する。
相手は、市場メーカーの経費で利益を上げたい他の市場参加者の代理として機能する。
2つの従来の単エージェントRLエージェントとARLを経験的に比較し、ARLアプローチが導くことを示す。
1) 制約のないリスク回避行動の出現又はドメイン固有の罰則
2) 試験環境における敵の有無にかかわらず評価された基準指標のセットによる性能の大幅な改善
3) 不確実性をモデル化した。
我々は,本手法が一貫して収束することを示す実証実験を行い,単純な単段ゲームにおいて,我々が収束するプロファイルがnash平衡に対応することを証明した。
関連論文リスト
- Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning [0.9208007322096533]
2つの自律的エージェントが市場の影響下で同じ資産を最適に清算することを学習するシナリオについて検討する。
その結果,エージェントが学んだ戦略は,対応する市場影響ゲームのナッシュ均衡から大きく逸脱していることがわかった。
市場のボラティリティの異なるレベルがエージェントのパフォーマンスと彼らが発見する均衡にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-08-21T16:54:53Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Provable Unrestricted Adversarial Training without Compromise with Generalizability [44.02361569894942]
敵の攻撃から守るための最も有望な戦略として、敵の訓練(AT)が広く考えられている。
既存のAT法は、標準的な一般化性を犠牲にして、しばしば敵の強靭性を達成している。
我々はProvable Unrestricted Adversarial Training (PUAT)と呼ばれる新しいATアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-22T07:45:51Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Deep Q-Learning Market Makers in a Multi-Agent Simulated Stock Market [58.720142291102135]
本稿では,エージェント・ベースの観点から,これらのマーケット・メーカーの戦略に関する研究に焦点をあてる。
模擬株式市場における知的市場マーカー作成のための強化学習(Reinforcement Learning, RL)の適用を提案する。
論文 参考訳(メタデータ) (2021-12-08T14:55:21Z) - Learning who is in the market from time series: market participant
discovery through adversarial calibration of multi-agent simulators [0.0]
電子取引市場では、価格またはボリューム時系列のみが直接観測可能である。
本研究では,実物と偽物とを区別できる識別器を2段階に分けて学習する手法を提案する。
論文 参考訳(メタデータ) (2021-08-02T06:53:37Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。