論文の概要: Deep Hedging Under Non-Convexity: Limitations and a Case for AlphaZero
- arxiv url: http://arxiv.org/abs/2510.01874v1
- Date: Thu, 02 Oct 2025 10:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.090761
- Title: Deep Hedging Under Non-Convexity: Limitations and a Case for AlphaZero
- Title(参考訳): 非凸下での深部ヒージング:AlphaZeroの限界と事例
- Authors: Matteo Maggiolo, Giuseppe Nuti, Miroslav Štrupl, Oleg Szehr,
- Abstract要約: この論文は不完全市場における複製ポートフォリオを構築している。
ゲームにおけるモンテカルロ木探索の成功に触発されて,AlphaZeroベースのシステムを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines replication portfolio construction in incomplete markets - a key problem in financial engineering with applications in pricing, hedging, balance sheet management, and energy storage planning. We model this as a two-player game between an investor and the market, where the investor makes strategic bets on future states while the market reveals outcomes. Inspired by the success of Monte Carlo Tree Search in stochastic games, we introduce an AlphaZero-based system and compare its performance to deep hedging - a widely used industry method based on gradient descent. Through theoretical analysis and experiments, we show that deep hedging struggles in environments where the $Q$-function is not subject to convexity constraints - such as those involving non-convex transaction costs, capital constraints, or regulatory limitations - converging to local optima. We construct specific market environments to highlight these limitations and demonstrate that AlphaZero consistently finds near-optimal replication strategies. On the theoretical side, we establish a connection between deep hedging and convex optimization, suggesting that its effectiveness is contingent on convexity assumptions. Our experiments further suggest that AlphaZero is more sample-efficient - an important advantage in data-scarce, overfitting-prone derivative markets.
- Abstract(参考訳): 本稿では,不完全市場における複製ポートフォリオ構築について検討する。価格,ヘッジ,バランスシート管理,エネルギー貯蔵計画といった金融工学における重要な課題である。
私たちはこれを、投資家と市場の間の2人プレイのゲームとしてモデル化し、投資家は将来の状態に対して戦略的賭けを行い、市場は結果を明らかにします。
確率ゲームにおけるモンテカルロ木探索の成功に触発されて、AlphaZeroベースのシステムを導入し、その性能を勾配降下に基づく広く使われている産業手法であるディープヘッジと比較する。
理論的分析や実験を通じて、Q$関数が非凸取引コスト、資本制限、規制制限など、凸制約の対象にならない環境において、深いヘッジの苦労が局所最適に収束していることが示される。
我々はこれらの制限を強調するために特定の市場環境を構築し、AlphaZeroが常に最適に近いレプリケーション戦略を見つけることを示す。
理論的には,深部ヘッジと凸最適化の関連性を確立し,その有効性は凸性仮定に即したものであることを示唆する。
我々の実験は、AlphaZeroがよりサンプリング効率が高いことを示唆している。
関連論文リスト
- Nearly Tight Regret Bounds for Profit Maximization in Bilateral Trade [14.182863671689836]
バイラテラル取引は、売り手と買い手という2つの戦略エージェントの仲介を行うタスクをモデル化する。
我々は,この問題をブローカーの観点から,後悔の最小化フレームワークを用いて検討する。
本稿では,売り手と評価を引いた場合,約$tildeO(sqrtT)=後悔を保証できる学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-26T16:42:05Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Simplex Decomposition for Portfolio Allocation Constraints in Reinforcement Learning [4.1573460459258245]
本稿では,制約作用空間を非制約配置問題に分解した上で,アロケーション制約に対処する新しい手法を提案する。
本稿では、タスクのアクション空間が分解されたアクション空間と等価であることを示し、新しい強化学習(RL)アプローチCAOSDを導入する。
論文 参考訳(メタデータ) (2024-04-16T16:00:59Z) - Deep Hedging with Market Impact [0.20482269513546458]
本稿では,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。
DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。
論文 参考訳(メタデータ) (2024-02-20T19:08:24Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Portfolio Optimization with 2D Relative-Attentional Gated Transformer [9.541129630971689]
DPGRGT(Relative-attentional Gated Transformer)モデルを用いた新しい決定論的政策グラデーションを提案する。
学習可能な相対的な位置埋め込みを時間と資産の軸に適用することにより、モデルは財務データの特異な構造をよりよく理解する。
20年間の米国株式市場データを用いた実験では,モデルがベースラインモデルを上回り,その効果を実証した。
論文 参考訳(メタデータ) (2020-12-27T14:08:26Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。