論文の概要: Financial Decision Making using Reinforcement Learning with Dirichlet Priors and Quantum-Inspired Genetic Optimization
- arxiv url: http://arxiv.org/abs/2509.00095v1
- Date: Wed, 27 Aug 2025 15:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.075338
- Title: Financial Decision Making using Reinforcement Learning with Dirichlet Priors and Quantum-Inspired Genetic Optimization
- Title(参考訳): ディリクレ前処理と量子インスパイアされた遺伝的最適化を用いた強化学習による金銭的意思決定
- Authors: Prasun Nandy, Debjit Dhar, Rik Das,
- Abstract要約: 本研究では,動的予算配分のための強化学習フレームワークを提案する。
ディリクレにインスパイアされた性質と量子突然変異に基づく遺伝的最適化によって強化されている。
未確認の財政データでは、実際の配分と高い整合性を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional budget allocation models struggle with the stochastic and nonlinear nature of real-world financial data. This study proposes a hybrid reinforcement learning (RL) framework for dynamic budget allocation, enhanced with Dirichlet-inspired stochasticity and quantum mutation-based genetic optimization. Using Apple Inc. quarterly financial data (2009 to 2025), the RL agent learns to allocate budgets between Research and Development and Selling, General and Administrative to maximize profitability while adhering to historical spending patterns, with L2 penalties discouraging unrealistic deviations. A Dirichlet distribution governs state evolution to simulate shifting financial contexts. To escape local minima and improve generalization, the trained policy is refined using genetic algorithms with quantum mutation via parameterized qubit rotation circuits. Generation-wise rewards and penalties are logged to visualize convergence and policy behavior. On unseen fiscal data, the model achieves high alignment with actual allocations (cosine similarity 0.9990, KL divergence 0.0023), demonstrating the promise of combining deep RL, stochastic modeling, and quantum-inspired heuristics for adaptive enterprise budgeting.
- Abstract(参考訳): 従来の予算配分モデルは、現実世界の財務データの確率的・非線形的な性質に苦慮している。
本研究では,動的予算配分のためのハイブリッド強化学習(RL)フレームワークを提案する。
米アップルの四半期財務データ(2009年-2025年)を用いて、RLは研究開発と販売の間の予算配分を学ぶ。
ディリクレ分布は、変化する財政状況をシミュレートするために状態の進化を管理する。
局所最小化を回避し、一般化を改善するために、パラメータ化された量子ビット回転回路を介して量子突然変異を伴う遺伝的アルゴリズムを用いて、訓練されたポリシーを洗練する。
世代別報酬と罰則は、収束と政策行動の可視化のために記録される。
未確認の財政データでは、このモデルは実際の割り当て(コサイン類似度0.9990、KL発散0.0023)と高い整合性を実現し、より深いRL、確率的モデリング、および適応型エンタープライズ予算のための量子インスパイアされたヒューリスティックスを組み合わせることを実証する。
関連論文リスト
- Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - A New Way: Kronecker-Factored Approximate Curvature Deep Hedging and its Benefits [0.0]
本稿では, Kronecker-Factored Approximate Curvature (K-FAC) 最適化の新たな統合により, ディープヘッジフレームワークの計算効率を向上する。
提案アーキテクチャは,K-FACの2次最適化とLong Short-Term Memory (LSTM)ネットワークを結合する。
論文 参考訳(メタデータ) (2024-11-22T15:19:40Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Distributional Refinement Network: Distributional Forecasting via Deep Learning [0.8142555609235358]
アクチュエータモデリングにおける重要なタスクは、損失の分布特性をモデル化することである。
本稿では,本質的に解釈可能なベースラインモデルとフレキシブルニューラルネットワークを組み合わせた分散リファインメントネットワーク(DRN)を提案する。
DRNは、全ての量子化の様々な効果を捉え、適切な解釈性を維持しながら予測性能を向上させる。
論文 参考訳(メタデータ) (2024-06-03T05:14:32Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。