論文の概要: Continuous-Time Reinforcement Learning for Asset-Liability Management
- arxiv url: http://arxiv.org/abs/2509.23280v1
- Date: Sat, 27 Sep 2025 12:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.139105
- Title: Continuous-Time Reinforcement Learning for Asset-Liability Management
- Title(参考訳): 資産責任管理のための継続的時間強化学習
- Authors: Yilie Huang,
- Abstract要約: 本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel approach for Asset-Liability Management (ALM) by employing continuous-time Reinforcement Learning (RL) with a linear-quadratic (LQ) formulation that incorporates both interim and terminal objectives. We develop a model-free, policy gradient-based soft actor-critic algorithm tailored to ALM for dynamically synchronizing assets and liabilities. To ensure an effective balance between exploration and exploitation with minimal tuning, we introduce adaptive exploration for the actor and scheduled exploration for the critic. Our empirical study evaluates this approach against two enhanced traditional financial strategies, a model-based continuous-time RL method, and three state-of-the-art RL algorithms. Evaluated across 200 randomized market scenarios, our method achieves higher average rewards than all alternative strategies, with rapid initial gains and sustained superior performance. The outperformance stems not from complex neural networks or improved parameter estimation, but from directly learning the optimal ALM strategy without learning the environment.
- Abstract(参考訳): 本稿では,連続時間強化学習(RL)と線形四分法(LQ)を併用し,相互目的と終端目的の両方を組み込んだアセット・リバビリティ・マネジメント(ALM)の新たなアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
最小限のチューニングで探索と搾取の効果的なバランスを確保するため,アクターに適応探索を導入するとともに,批評家にスケジュール探索を導入する。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
200のランダム化市場シナリオにまたがって評価を行い,提案手法は全ての代替戦略よりも高い平均報酬を達成し,初期利益が急速に向上し,性能が向上した。
アウトパフォーマンスは複雑なニューラルネットワークやパラメータ推定の改善ではなく、環境を学習せずに最適なALM戦略を直接学習することに由来する。
関連論文リスト
- LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning [0.27528170226206433]
本稿では,過度な報酬を伴う環境下での学習エージェントの効率向上を目的とした,本質的なモチベーション戦略の2つの組み合わせについて検討する。
本稿では,変分自動エンコーダ(VAE)の報奨状態の新規性を,大言語モデル(LLM)から派生した帰納的報奨手法を用いて,変分状態を内在的リワード(VSIMR)として統合することを提案する。
実験の結果, この組み合わせ戦略は, 各戦略を個別に使用した場合と比較して, エージェント性能と効率を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T19:10:58Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。