論文の概要: Comparing Normalization Methods for Portfolio Optimization with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.03910v1
- Date: Tue, 05 Aug 2025 20:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.443318
- Title: Comparing Normalization Methods for Portfolio Optimization with Reinforcement Learning
- Title(参考訳): ポートフォリオ最適化のための正規化法と強化学習の比較
- Authors: Caio de Souza Barbosa Costa, Anna Helena Reali Costa,
- Abstract要約: 近年、強化学習はロボット工学、ゲーム、自然言語処理、金融など様々な分野で顕著な成果を上げている。
本稿では,3つの市場において最も広く使用されている正規化手法の2つについて検討し,トレーニング前のデータ正規化の標準手法と比較する。
結果は、この特定の領域において、状態正規化はエージェントのパフォーマンスを実際に低下させることができることを示している。
- 参考スコア(独自算出の注目度): 2.186901738997926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning has achieved remarkable results in various domains, including robotics, games, natural language processing, and finance. In the financial domain, this approach has been applied to tasks such as portfolio optimization, where an agent continuously adjusts the allocation of assets within a financial portfolio to maximize profit. Numerous studies have introduced new simulation environments, neural network architectures, and training algorithms for this purpose. Among these, a domain-specific policy gradient algorithm has gained significant attention in the research community for being lightweight, fast, and for outperforming other approaches. However, recent studies have shown that this algorithm can yield inconsistent results and underperform, especially when the portfolio does not consist of cryptocurrencies. One possible explanation for this issue is that the commonly used state normalization method may cause the agent to lose critical information about the true value of the assets being traded. This paper explores this hypothesis by evaluating two of the most widely used normalization methods across three different markets (IBOVESPA, NYSE, and cryptocurrencies) and comparing them with the standard practice of normalizing data before training. The results indicate that, in this specific domain, the state normalization can indeed degrade the agent's performance.
- Abstract(参考訳): 近年、強化学習はロボット工学、ゲーム、自然言語処理、金融など様々な分野で顕著な成果を上げている。
金融分野では、エージェントが金融ポートフォリオ内の資産配分を継続的に調整して利益を最大化するポートフォリオ最適化のようなタスクに、このアプローチが適用されてきた。
多くの研究が、新しいシミュレーション環境、ニューラルネットワークアーキテクチャ、この目的のためのトレーニングアルゴリズムを導入している。
これらのうち、ドメイン固有のポリシー勾配アルゴリズムは、軽量で、高速で、他のアプローチよりも優れているとして、研究コミュニティで大きな注目を集めている。
しかし、最近の研究では、特にポートフォリオが暗号通貨から成っていない場合、このアルゴリズムは一貫性のない結果をもたらし、性能が低いことが示されている。
この問題の1つの可能な説明は、一般的に使われている状態正規化法は、エージェントが取引される資産の真の価値について重要な情報を失う可能性があることである。
本稿では、この仮説を3つの異なる市場(IBOVESPA、NYSE、暗号通貨)で広く使われている2つの正規化手法の評価と、トレーニング前にデータを正規化する標準的な方法との比較により検討する。
結果は、この特定の領域において、状態正規化はエージェントのパフォーマンスを実際に低下させることができることを示している。
関連論文リスト
- Dynamic Portfolio Rebalancing: A Hybrid new Model Using GNNs and Pathfinding for Cost Efficiency [0.0]
本稿では,取引コストを予測するグラフニューラルネットワーク(GNN)と,コスト効率の高いリバランスパスを特定するDijkstraのアルゴリズムを統合することで,ポートフォリオのリバランスを最適化する新たなアプローチを提案する。
実証的な結果は、このハイブリッドアプローチが取引コストを大幅に削減し、ポートフォリオマネージャに強力なツールを提供することを示している。
論文 参考訳(メタデータ) (2024-10-02T11:00:52Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Optimizing Portfolio Management and Risk Assessment in Digital Assets
Using Deep Learning for Predictive Analysis [5.015409508372732]
本稿では,DQNアルゴリズムを新規かつ簡単な方法で資産管理ポートフォリオに導入する。
この性能はベンチマークをはるかに上回り、ポートフォリオ管理におけるDRLアルゴリズムの有効性を十分に証明している。
異なる資産は別々に環境として訓練されるので、異なる資産間でQ値が漂う現象があるかもしれない。
論文 参考訳(メタデータ) (2024-02-25T05:23:57Z) - Cryptocurrency Portfolio Optimization by Neural Networks [81.20955733184398]
本稿では,これらの投資商品を活用するために,ニューラルネットワークに基づく効果的なアルゴリズムを提案する。
シャープ比を最大化するために、各アセットの割り当て重量を時間間隔で出力するディープニューラルネットワークを訓練する。
ネットワークの特定の資産に対するバイアスを規制する新たな損失項を提案し,最小分散戦略に近い割り当て戦略をネットワークに学習させる。
論文 参考訳(メタデータ) (2023-10-02T12:33:28Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Differentially Private Domain Adaptation with Theoretical Guarantees [46.37771025567305]
多くのアプリケーションでは、ラベル付きデータの処分におけるラベル付きデータはプライバシー上の制約を受けており、比較的制限されている。
これは、パブリックソースからプライベートターゲットドメインへのドメイン適応を監督する現代の問題である。
我々は、理論的な学習保証の恩恵を受けるために、一般の学習者を利用する。
論文 参考訳(メタデータ) (2023-06-15T04:03:06Z) - A Learnheuristic Approach to A Constrained Multi-Objective Portfolio
Optimisation Problem [0.0]
本稿では,多目的ポートフォリオ最適化について検討する。
所定のリターン率のリスクを最小化しつつ、期待したリターンを最大化する目的を達成することを目的としている。
論文 参考訳(メタデータ) (2023-04-13T17:05:45Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - f-Domain-Adversarial Learning: Theory and Algorithms [82.97698406515667]
教師なしのドメイン適応は、トレーニング中、ターゲットドメイン内のラベルなしデータにアクセス可能な、多くの機械学習アプリケーションで使用されている。
領域適応のための新しい一般化法を導出し、f-発散体の変分的特徴に基づく分布間の相違性の新しい尺度を利用する。
論文 参考訳(メタデータ) (2021-06-21T18:21:09Z) - Model-Based Domain Generalization [96.84818110323518]
本稿では,モデルベースドメイン一般化問題に対する新しいアプローチを提案する。
我々のアルゴリズムは、最新のwildsベンチマークの最先端手法を最大20ポイント上回った。
論文 参考訳(メタデータ) (2021-02-23T00:59:02Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。