論文の概要: Stochastic Approximation Methods for Distortion Risk Measure Optimization
- arxiv url: http://arxiv.org/abs/2510.04563v1
- Date: Mon, 06 Oct 2025 07:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.739841
- Title: Stochastic Approximation Methods for Distortion Risk Measure Optimization
- Title(参考訳): 歪みリスク測定最適化のための確率近似法
- Authors: Jinyang Jiang, Bernd Heidergott, Jiaqiao Hu, Yijie Peng,
- Abstract要約: 本稿では2つの双対表現に基づくDRM最適化の降下アルゴリズムを提案する。
DM形式は3時間スケールのアルゴリズムを用いて量子関数を追跡し、勾配を計算し、決定変数を更新する。
QF形式はより単純な2時間スケールのアプローチを提供し、複雑な量子的勾配推定を必要としない。
- 参考スコア(独自算出の注目度): 2.97238992700289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distortion Risk Measures (DRMs) capture risk preferences in decision-making and serve as general criteria for managing uncertainty. This paper proposes gradient descent algorithms for DRM optimization based on two dual representations: the Distortion-Measure (DM) form and Quantile-Function (QF) form. The DM-form employs a three-timescale algorithm to track quantiles, compute their gradients, and update decision variables, utilizing the Generalized Likelihood Ratio and kernel-based density estimation. The QF-form provides a simpler two-timescale approach that avoids the need for complex quantile gradient estimation. A hybrid form integrates both approaches, applying the DM-form for robust performance around distortion function jumps and the QF-form for efficiency in smooth regions. Proofs of strong convergence and convergence rates for the proposed algorithms are provided. In particular, the DM-form achieves an optimal rate of $O(k^{-4/7})$, while the QF-form attains a faster rate of $O(k^{-2/3})$. Numerical experiments confirm their effectiveness and demonstrate substantial improvements over baselines in robust portfolio selection tasks. The method's scalability is further illustrated through integration into deep reinforcement learning. Specifically, a DRM-based Proximal Policy Optimization algorithm is developed and applied to multi-echelon dynamic inventory management, showcasing its practical applicability.
- Abstract(参考訳): DRM(Distortion Risk Measures)は、意思決定におけるリスクの選好を捉え、不確実性を管理するための一般的な基準として機能する。
本稿では,2つの双対表現に基づくDRM最適化のための勾配降下アルゴリズムを提案する。
DM形式は3時間スケールのアルゴリズムを用いて量子関数を追跡し、勾配を計算し、決定変数を更新する。
QF形式はより単純な2時間スケールのアプローチを提供し、複雑な量子的勾配推定を必要としない。
ハイブリッド形式は両方のアプローチを統合し、歪み関数ジャンプに関する頑健な性能にDM形式を適用し、滑らかな領域での効率にQF形式を適用する。
提案アルゴリズムの強い収束率と収束率の証明が提供される。
特に、DM形式は$O(k^{-4/7})$の最適レートを達成し、QF形式は$O(k^{-2/3})$の高速レートを達成する。
数値実験により、ロバストなポートフォリオ選択タスクにおいて、その有効性を確認し、ベースラインよりも大幅に改善されたことを示す。
この手法のスケーラビリティは、深層強化学習への統合によってさらに説明される。
具体的には,DRMをベースとしたプロキシポリシー最適化アルゴリズムを開発し,その実用性を示すマルチエケロン動的在庫管理に適用する。
関連論文リスト
- MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP [4.880846795915428]
多様なタスクやエージェント構成に適応するために,L2C(Learning to Coordinate)を提案する。
L2CはADMM-DDPパイプラインを通じてエンドツーエンドを分散的に区別する。
最先端の手法よりも高速な勾配計算を実現する。
論文 参考訳(メタデータ) (2025-09-01T17:17:05Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。
Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。
このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文 参考訳(メタデータ) (2024-05-28T14:28:28Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。