Fugu-MT 論文翻訳(概要): Explainable Deep Reinforcement Learning for Portfolio Management: An Empirical Approach

論文の概要: Explainable Deep Reinforcement Learning for Portfolio Management: An Empirical Approach

arxiv url: http://arxiv.org/abs/2111.03995v1
Date: Sun, 7 Nov 2021 04:23:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-09 16:44:19.978478
Title: Explainable Deep Reinforcement Learning for Portfolio Management: An Empirical Approach
Title（参考訳）: ポートフォリオマネジメントのための説明可能な深層強化学習--実証的アプローチ
Authors: Mao Guan, Xiao-Yang Liu
Abstract要約: ディープニューラルネットワークのブラックボックスの性質のため、DRLベースのトレーディング戦略を理解するのは難しい。ポートフォリオ管理タスクにおけるDRLエージェントの戦略を説明するための実証的アプローチを提案する。
参考スコア（独自算出の注目度）: 30.283740528236752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) has been widely studied in the portfolio management task. However, it is challenging to understand a DRL-based trading strategy because of the black-box nature of deep neural networks. In this paper, we propose an empirical approach to explain the strategies of DRL agents for the portfolio management task. First, we use a linear model in hindsight as the reference model, which finds the best portfolio weights by assuming knowing actual stock returns in foresight. In particular, we use the coefficients of a linear model in hindsight as the reference feature weights. Secondly, for DRL agents, we use integrated gradients to define the feature weights, which are the coefficients between reward and features under a linear regression model. Thirdly, we study the prediction power in two cases, single-step prediction and multi-step prediction. In particular, we quantify the prediction power by calculating the linear correlations between the feature weights of a DRL agent and the reference feature weights, and similarly for machine learning methods. Finally, we evaluate a portfolio management task on Dow Jones 30 constituent stocks during 01/01/2009 to 09/01/2021. Our approach empirically reveals that a DRL agent exhibits a stronger multi-step prediction power than machine learning methods.
Abstract（参考訳）: ポートフォリオ管理タスクにおいて、深層強化学習(DRL)が広く研究されている。しかし、ディープニューラルネットワークのブラックボックスの性質のため、DRLベースのトレーディング戦略を理解するのは難しい。本稿では,ポートフォリオ管理タスクにおけるDRLエージェントの戦略を説明するための実証的アプローチを提案する。まず,先見の株式リターンを想定してポートフォリオの最適重み付けを求める基準モデルとして,後見の線形モデルを用いる。特に、後方視における線形モデルの係数を基準特徴量として用いる。第2に、DRLエージェントに対して、線形回帰モデルの下での報酬と特徴の間の係数である特徴量の定義に積分勾配を用いる。第3に,単段予測と多段予測の2つのケースで予測能力について検討した。特に,drlエージェントの特徴重みと参照特徴重みとの線形相関を計算し,機械学習法と同様に予測パワーを定量化する。最後に、dow jones 30構成株のポートフォリオ管理タスクを01/01/2009から09/01/2021までの期間に評価する。提案手法は,DRLエージェントが機械学習手法よりも強力な多段階予測能力を示すことを示す。

関連論文リスト

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文参考訳（メタデータ） (2025-05-30T17:57:08Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。 LLM は RFT に非常に矛盾しない応答が可能である。 RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文参考訳（メタデータ） (2025-05-25T00:54:50Z)
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization [82.03139922490796]
強化学習(Reinforcement Learning, RL)は、過去のデータを用いたリスクを最小限にしつつ累積リターンを最大化することを目的とした、株式取引のような逐次的ポートフォリオ最適化タスクにおいて、大きな可能性を示してきた。従来のRLアプローチは、固定データセット内での振る舞いの購入と販売を最適に記憶するだけのポリシーを生成することが多い。当社のアプローチでは,ポートフォリオ最適化を新たなタイプの部分オフラインRL問題として捉え,2つの技術的貢献を行う。
論文参考訳（メタデータ） (2025-05-19T06:37:25Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。 MBRLには現実世界のタスクの一般化機能が欠けている。
論文参考訳（メタデータ） (2024-11-15T13:21:26Z)
Explainable Post hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning agent [44.99833362998488]
我々はポートフォリオ管理のための新しい説明可能な深層強化学習(XDRL)アプローチを開発した。方法論を実践することにより、エージェントの行動を予測する時間内に解釈し、投資政策の要件に従うかどうかを評価することができる。
論文参考訳（メタデータ） (2024-07-19T17:40:39Z)
UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T14:37:42Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Combining Transformer based Deep Reinforcement Learning with Black-Litterman Model for Portfolio Optimization [0.0]
モデルフリーのアルゴリズムとして、深層強化学習(DRL)エージェントは、教師なしの方法で環境と対話することで学習し、決定する。 DRLエージェントとBlack-Litterman (BL)モデルを組み合わせたハイブリッドポートフォリオ最適化モデルを提案する。我々のDRLエージェントは、様々な比較ポートフォリオ選択戦略と代替DRLフレームワークを、累積リターンで少なくとも42%上回っている。
論文参考訳（メタデータ） (2024-02-23T16:01:37Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。 Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文参考訳（メタデータ） (2022-08-23T03:20:06Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文参考訳（メタデータ） (2020-05-12T17:52:43Z)
Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文参考訳（メタデータ） (2020-02-19T18:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。