Fugu-MT 論文翻訳(概要): Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

論文の概要: Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

arxiv url: http://arxiv.org/abs/2605.12653v1
Date: Tue, 12 May 2026 18:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.626603
Title: Plan Before You Trade: Inference-Time Optimization for RL Trading Agents
Title（参考訳）: 取引前の計画:RL取引エージェントの推論時間最適化
Authors: Eun Go, Rohan Deb, Arindam Banerjee,
Abstract要約: ポートフォリオ管理のための強化学習エージェントは通常、静的ポリシーとしてトレーニングされ、デプロイされる。モデル予測制御(MPC)にインスパイアされたプラグイン推論時間最適化フレームワークを提案する。我々のフレームワークは、事前訓練されたエージェントと互換性があり、リトレーニングすることなく、予測者の予測にポリシーを適用する。
参考スコア（独自算出の注目度）: 8.39123686251568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning agents for portfolio management are typically trained and deployed as static policies, with no mechanism for using price forecasts at inference time. We propose $\text{FPILOT}$ (**Fin**ancial **P**lugin **I**nference-time **L**earning for **O**ptimal **T**rading), a plugin inference-time optimization framework inspired by Model Predictive Control (MPC). Our key structural insight is that future prices mostly do not depend on one agent's portfolio allocation, so a suitable predictive model can produce a multi-step price trajectory without iterative action-conditioned rollouts as in typical reinforcement learning. At each decision step, we use the forecaster's predicted price trajectory to construct an allocation-based imagined return objective, and optimize the policy at inference-time before executing one step of the trade. Our framework is compatible with any pre-trained agent and adapts the policy to the forecaster's predictions without any retraining. Evaluated across five policy learning algorithms on the TradeMaster DJ30 benchmark, $\text{FPILOT}$ produces consistent improvements in total return and return-based risk-adjusted metrics (Sharpe, Sortino, Calmar), with stochastic policies benefiting more than deterministic ones. Further, using synthetic forecasts at calibrated quality levels, we show that gains consistently improve with forecaster quality, suggesting that our performance will improve based on advances in financial forecasting.
Abstract（参考訳）: ポートフォリオ管理のための強化学習エージェントは通常、静的ポリシーとしてトレーニングされ、デプロイされる。モデル予測制御(MPC)にインスパイアされたプラグイン推論時間最適化フレームワークである$\text{FPILOT}$ (**Fin**ancial **P**lugin **I**nference-time **L**earning for **O*ptimal **T**radingを提案する。我々の重要な構造的洞察は、将来の価格は、主にあるエージェントのポートフォリオ割り当てに依存しないため、適切な予測モデルは、典型的な強化学習のように反復的な動作条件のロールアウトなしで、多段階の価格軌道を生成できるということである。各決定ステップでは、予測者の予測価格軌道を用いて、アロケーションベースで想像されたリターン目標を構築し、取引の一段階を実行する前に、推論時にポリシーを最適化する。我々のフレームワークは、事前訓練されたエージェントと互換性があり、リトレーニングすることなく、予測者の予測にポリシーを適用する。 TradeMaster DJ30ベンチマークで5つのポリシー学習アルゴリズムを評価すると、$\text{FPILOT}$は、決定論的よりも有利な確率的ポリシーで、全リターンとリターンベースのリスク調整メトリクス(シャープ、ソルティーノ、カルマー)の一貫性のある改善を実現している。さらに, 調整品質レベルでの総合的な予測を用いて, 予測品質とともに利得が一貫して改善することを示し, 財務予測の進歩に基づいて, 性能が向上することが示唆された。

関連論文リスト

$V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。 V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2026-03-11T14:57:41Z)
Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文参考訳（メタデータ） (2026-02-05T05:45:16Z)
$V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文参考訳（メタデータ） (2026-02-03T14:35:23Z)
Integrated Prediction and Multi-period Portfolio Optimization [29.582959310549594]
マルチ周期ポートフォリオ最適化は、取引コスト、パス依存リスク、および取引決定の時間的構造を考慮に入れている。本稿では,ターンオーバーペナルティを用いた多周期平均分散ポートフォリオ最適化モデルであるIPMOを紹介する。拡張性のために,KKT(Karush-Kuhn-Tucker)システムの分解を回避したMDFP( mirror-descent fixed-point)微分方式を提案する。
論文参考訳（メタデータ） (2025-12-12T04:31:22Z)
Intelligent Routing for Sparse Demand Forecasting: A Comparative Evaluation of Selection Strategies [0.6798775532273751]
サプライチェーンにおけるパースと断続的な需要予測は重大な課題です本稿では, モデルスパンニングフレームワークを提案し, モデルスパンニングの古典的, ML, DLメソッドを製品毎に選択する。大規模なFavoritaデータセットの実験では、ディープラーニング(インセプションタイム)ルータが予測精度を最大11.8%向上している。
論文参考訳（メタデータ） (2025-06-04T03:09:45Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文参考訳（メタデータ） (2023-03-28T00:23:23Z)
Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文参考訳（メタデータ） (2020-12-09T10:19:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。