論文の概要: Learning Multi-Agent Intention-Aware Communication for Optimal
Multi-Order Execution in Finance
- arxiv url: http://arxiv.org/abs/2307.03119v1
- Date: Thu, 6 Jul 2023 16:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:14:54.058655
- Title: Learning Multi-Agent Intention-Aware Communication for Optimal
Multi-Order Execution in Finance
- Title(参考訳): 金融における最適マルチオーダー実行のためのマルチエージェント意図認識コミュニケーションの学習
- Authors: Yuchen Fang, Zhenggang Tang, Kan Ren, Weiqing Liu, Li Zhao, Jiang
Bian, Dongsheng Li, Weinan Zhang, Yong Yu, Tie-Yan Liu
- Abstract要約: まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。
本稿では,学習可能なマルチラウンド通信プロトコルを提案する。
2つの実世界の市場のデータに関する実験では、優れたパフォーマンスを示し、コラボレーションの有効性が著しく向上した。
- 参考スコア(独自算出の注目度): 96.73189436721465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Order execution is a fundamental task in quantitative finance, aiming at
finishing acquisition or liquidation for a number of trading orders of the
specific assets. Recent advance in model-free reinforcement learning (RL)
provides a data-driven solution to the order execution problem. However, the
existing works always optimize execution for an individual order, overlooking
the practice that multiple orders are specified to execute simultaneously,
resulting in suboptimality and bias. In this paper, we first present a
multi-agent RL (MARL) method for multi-order execution considering practical
constraints. Specifically, we treat every agent as an individual operator to
trade one specific order, while keeping communicating with each other and
collaborating for maximizing the overall profits. Nevertheless, the existing
MARL algorithms often incorporate communication among agents by exchanging only
the information of their partial observations, which is inefficient in
complicated financial market. To improve collaboration, we then propose a
learnable multi-round communication protocol, for the agents communicating the
intended actions with each other and refining accordingly. It is optimized
through a novel action value attribution method which is provably consistent
with the original learning objective yet more efficient. The experiments on the
data from two real-world markets have illustrated superior performance with
significantly better collaboration effectiveness achieved by our method.
- Abstract(参考訳): 注文実行は、特定の資産の取引注文の取得または清算を完了することを目的とした、量的金融の基本的なタスクである。
モデルフリー強化学習(RL)の最近の進歩は、注文実行問題に対するデータ駆動型ソリューションを提供する。
しかしながら、既存の作業は常に個々の順序の実行を最適化し、複数の順序が同時に実行されるように指定されているプラクティスを見越して、亜最適性とバイアスをもたらす。
本稿では,まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。
具体的には、すべてのエージェントを個々のオペレータとして扱い、互いにコミュニケーションを保ちながら、全体の利益を最大化するために協力します。
それにもかかわらず、既存のmarlアルゴリズムは、複雑な金融市場では非効率である部分的観測に関する情報のみを交換することで、エージェント間のコミュニケーションを組み込むことが多い。
協調性を向上させるために,学習可能なマルチラウンド通信プロトコルを提案する。
元の学習目標と確実に一致するが、より効率的である新規な行動値帰属法によって最適化される。
実世界の2つの市場におけるデータを用いた実験により,本手法によるコラボレーションの有効性が著しく向上した。
関連論文リスト
- Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Optimal Execution Using Reinforcement Learning [6.905391624417593]
この作業は最適な順序実行に関するもので、大規模な順序をいくつかの小さな順序に分割して実装不足を最大化する。
暗号通貨取引所の多様性に基づいて、複数の取引所からのデータを初めて整列させて、相互交換信号の抽出を試みる。
論文 参考訳(メタデータ) (2023-06-19T07:09:59Z) - Many learning agents interacting with an agent-based market model [0.0]
反応型エージェントベースモデルと相互作用する最適な実行取引エージェントの学習のダイナミクスを考察する。
このモデルは、最適な実行学習エージェント、最小限の知的流動性テイカー、高速な電子流動性プロバイダによって表される3つの栄養レベルを持つ市場エコロジーを表している。
学習可能な最適な実行エージェントを組み込むことで、経験的データと同じ複雑さで動的に生成できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-03-13T18:15:52Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。