Fugu-MT 論文翻訳(概要): Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window Denoise PPO

論文の概要: Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window Denoise PPO

arxiv url: http://arxiv.org/abs/2206.10736v1
Date: Tue, 21 Jun 2022 21:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-24 08:53:47.558535
Title: Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window Denoise PPO
Title（参考訳）: imitate then transcend: dual-window denoise ppoによるマルチエージェント最適実行
Authors: Jin Fang, Jiacheng Weng, Yi Xiang, Xinwen Zhang
Abstract要約: 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。提案したフレームワークからトレーニングされたRLエージェントは、実行コストにおいて、業界ベンチマークのTWAP(Time-weighted average price)戦略を一貫して上回った。
参考スコア（独自算出の注目度）: 13.05016423016994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A novel framework for solving the optimal execution and placement problems using reinforcement learning (RL) with imitation was proposed. The RL agents trained from the proposed framework consistently outperformed the industry benchmark time-weighted average price (TWAP) strategy in execution cost and showed great generalization across out-of-sample trading dates and tickers. The impressive performance was achieved from three aspects. First, our RL network architecture called Dual-window Denoise PPO enabled efficient learning in a noisy market environment. Second, a reward scheme with imitation learning was designed, and a comprehensive set of market features was studied. Third, our flexible action formulation allowed the RL agent to tackle optimal execution and placement collectively resulting in better performance than solving individual problems separately. The RL agent's performance was evaluated in our multi-agent realistic historical limit order book simulator in which price impact was accurately assessed. In addition, ablation studies were also performed, confirming the superiority of our framework.
Abstract（参考訳）: 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。提案したフレームワークからトレーニングしたRLエージェントは、実行コストにおいて業界ベンチマークの時間重み付き平均価格(TWAP)戦略を一貫して上回り、サンプル外取引日時とティッカーをまたいで非常に一般化した。印象的なパフォーマンスは3つの側面から達成された。まず、Dual-window Denoise PPOと呼ばれるRLネットワークアーキテクチャにより、ノイズの多い市場環境で効率的な学習が可能になった。第2に、模倣学習による報酬スキームをデザインし、市場特性の包括的集合を考察した。第3に、当社のフレキシブルアクション定式化により、RLエージェントが最適な実行と配置に取り組み、個々の問題を個別に解くよりも性能が向上した。 RLエージェントの性能を,価格の影響を正確に評価したマルチエージェントの現実的歴史制限順序帳シミュレータで評価した。さらにアブレーション試験も実施し,本フレームワークの優位性を確認した。

関連論文リスト

How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-05T17:12:33Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文参考訳（メタデータ） (2024-10-08T14:55:26Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文参考訳（メタデータ） (2024-03-21T03:42:39Z)
Domain-adapted Learning and Imitation: DRL for Power Arbitrage [1.6874375111244329]
本稿では,この二段階シミュレーションと欧州電力仲裁取引の最適化のための協調的二重エージェント強化学習手法を提案する。電力トレーダーの取引行動を模倣してドメイン固有の知識を取り入れた2つの新しい実装を導入する。本研究は,ドメインの知識を一般学習問題に活用することにより,性能を大幅に向上できることを実証する。
論文参考訳（メタデータ） (2023-01-19T23:36:23Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Model-Free Reinforcement Learning for Asset Allocation [0.0]
本研究では, モデルフリー深部RLエージェントを用いたポートフォリオ管理における強化学習の性能について検討した。実物価格で複数のRLエージェントを訓練し、アセットアロケーションの実施方法を学びました。 4つのRL剤(A2C, SAC, PPO, TRPO)は総じてMPTを上回った。
論文参考訳（メタデータ） (2022-09-21T16:00:24Z)
Functional Optimization Reinforcement Learning for Real-Time Bidding [14.5826735379053]
リアルタイム入札はプログラム広告の新しいパラダイムである。既存のアプローチは、入札最適化に十分なソリューションを提供するのに苦労しています。本稿では,機能最適化を伴うRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
論文参考訳（メタデータ） (2022-06-25T06:12:17Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。