論文の概要: Improving Portfolio Optimization Results with Bandit Networks
- arxiv url: http://arxiv.org/abs/2410.04217v1
- Date: Tue, 8 Oct 2024 07:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 09:11:41.507749
- Title: Improving Portfolio Optimization Results with Bandit Networks
- Title(参考訳): Bandit Networksによるポートフォリオ最適化結果の改善
- Authors: Gustavo de Freitas Fonseca, Lucas Coelho e Silva, Paulo André Lima de Castro,
- Abstract要約: 非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,TextitAdaptive Discounted Thompson Sampling (ADTS)アルゴリズムを提案する。
次に、このアプローチを、TextitCombinatorial Adaptive Discounted Thompson Sampling (CADTS)アルゴリズムを導入することで、Portfolio Optimization問題に拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), multi-armed Bandit (MAB) problems have found applications across diverse domains such as recommender systems, healthcare, and finance. Traditional MAB algorithms typically assume stationary reward distributions, which limits their effectiveness in real-world scenarios characterized by non-stationary dynamics. This paper addresses this limitation by introducing and evaluating novel Bandit algorithms designed for non-stationary environments. First, we present the \textit{Adaptive Discounted Thompson Sampling} (ADTS) algorithm, which enhances adaptability through relaxed discounting and sliding window mechanisms to better respond to changes in reward distributions. We then extend this approach to the Portfolio Optimization problem by introducing the \textit{Combinatorial Adaptive Discounted Thompson Sampling} (CADTS) algorithm, which addresses computational challenges within Combinatorial Bandits and improves dynamic asset allocation. Additionally, we propose a novel architecture called Bandit Networks, which integrates the outputs of ADTS and CADTS, thereby mitigating computational limitations in stock selection. Through extensive experiments using real financial market data, we demonstrate the potential of these algorithms and architectures in adapting to dynamic environments and optimizing decision-making processes. For instance, the proposed bandit network instances present superior performance when compared to classic portfolio optimization approaches, such as capital asset pricing model, equal weights, risk parity, and Markovitz, with the best network presenting an out-of-sample Sharpe Ratio 20\% higher than the best performing classical model.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)では、マルチアームのBandit(MAB)問題により、レコメンダシステム、ヘルスケア、ファイナンスなど、さまざまな分野にまたがる応用が発見されている。
従来のMABアルゴリズムは、定常報酬分布を前提としており、非定常力学によって特徴づけられる実世界のシナリオにおける有効性を制限している。
本稿では,非定常環境向けに設計された新しいBanditアルゴリズムの導入と評価により,この制限に対処する。
まず, 報酬分布の変化に対応するために, 緩やかなディスカウントとスライディングウインドウ機構により適応性を向上する, ADTSアルゴリズムを提案する。
そこで我々は,この手法を Portfolio Optimization 問題に拡張し,Y Combinatorial Bandits 内の計算問題に対処し,動的アセットアロケーションを改善する CADTS アルゴリズムを導入する。
さらに、ADTSとCADTSの出力を統合し、ストックセレクションにおける計算制限を緩和するBandit Networksという新しいアーキテクチャを提案する。
実際の金融市場データを用いた広範な実験を通じて、動的環境への適応と意思決定プロセスの最適化において、これらのアルゴリズムとアーキテクチャの可能性を実証する。
例えば、提案したバンディットネットワークインスタンスは、資本資産価格モデル、等重値、リスクパリティ、マルコヴィッツといった古典的なポートフォリオ最適化アプローチと比較して優れたパフォーマンスを示し、最高のネットワークは、最高のパフォーマンスのシャープ比を20倍高くしている。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Diversifying Investments and Maximizing Sharpe Ratio: a novel QUBO
formulation [0.0]
本稿では,記述されたタスクに対する新しいQUBOの定式化を提案し,数学的詳細と必要な仮定を提供する。
我々は、利用可能なQUBOソルバを用いて結果を得るとともに、この用語で大規模な問題に対処するハイブリッドアプローチの振る舞いについて議論する。
論文 参考訳(メタデータ) (2023-02-23T19:15:44Z) - A Bandit Approach to Online Pricing for Heterogeneous Edge Resource
Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。
このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。
提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文 参考訳(メタデータ) (2023-02-14T10:21:14Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Comparing Classical-Quantum Portfolio Optimization with Enhanced
Constraints [0.0]
ポートフォリオ最適化問題に基本的な分析を加え、選択したバランスシートのメトリクスに基づいて資産固有の制約とグローバルな制約を追加する方法について述べる。
我々は、D-Waveの量子プロセッサを用いて、そのような問題を解決するための最先端のアルゴリズムを解析し、商用で利用可能な最適化ソフトウェアで得られるソリューションの品質を比較した。
論文 参考訳(メタデータ) (2022-03-09T17:46:32Z) - Correlated Bandits for Dynamic Pricing via the ARC algorithm [2.7564955518050693]
漸近ランダム化制御(Asymptotic Randomized Control)は、ベイズバンドの幅広いクラスに対する最適な戦略に厳密な近似を与える。
これにより、意思決定者は報酬に加えて信号を観察し、異なる選択の結果の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができる。
論文 参考訳(メタデータ) (2021-02-08T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。