論文の概要: Learning to Optimize with Stochastic Dominance Constraints
- arxiv url: http://arxiv.org/abs/2211.07767v1
- Date: Mon, 14 Nov 2022 21:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:08:25.041704
- Title: Learning to Optimize with Stochastic Dominance Constraints
- Title(参考訳): 確率的支配制約による最適化の学習
- Authors: Hanjun Dai, Yuan Xue, Niao He, Bethany Wang, Na Li, Dale Schuurmans,
Bo Dai
- Abstract要約: 本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
- 参考スコア(独自算出の注目度): 103.26714928625582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world decision-making, uncertainty is important yet difficult to
handle. Stochastic dominance provides a theoretically sound approach for
comparing uncertain quantities, but optimization with stochastic dominance
constraints is often computationally expensive, which limits practical
applicability. In this paper, we develop a simple yet efficient approach for
the problem, the Light Stochastic Dominance Solver (light-SD), that leverages
useful properties of the Lagrangian. We recast the inner optimization in the
Lagrangian as a learning problem for surrogate approximation, which bypasses
apparent intractability and leads to tractable updates or even closed-form
solutions for gradient calculations. We prove convergence of the algorithm and
test it empirically. The proposed light-SD demonstrates superior performance on
several representative problems ranging from finance to supply chain
management.
- Abstract(参考訳): 現実世界の意思決定では、不確実性は重要で扱いにくい。
確率支配は、不確実量を比較するための理論的に健全なアプローチを提供するが、確率支配の制約による最適化はしばしば計算コストが高く、実用的な適用性を制限する。
本稿では,Lagrangian の有用な性質を生かした簡易かつ効率的な方法である Light Stochastic Dominance Solver (light-SD) を提案する。
我々は、ラグランジアンの内部最適化をサロゲート近似の学習問題として再考し、これは明らかな難解さを回避し、グラデーション計算のための引き込み可能な更新やクローズドフォームの解にも繋がる。
アルゴリズムの収束を証明し、経験的にテストします。
提案するlight-sdは,金融からサプライチェーン管理に至るまで,いくつかの代表的な問題において優れた性能を示す。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Instance-Optimality in Interactive Decision Making: Toward a
Non-Asymptotic Theory [30.061707627742766]
適応性の強い概念であるインスタンス最適化を目指しており、どの問題の場合であっても、検討中のアルゴリズムは全ての一貫したアルゴリズムより優れていると主張する。
本稿では,一般関数近似を用いたインスタンス最適決定の非漸近的理論の開発に向けて第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-04-24T21:51:58Z) - Multistage Stochastic Optimization via Kernels [3.7565501074323224]
我々は,多段階最適化問題に対する非パラメトリック,データ駆動,トラクタブルアプローチを開発した。
本稿では,提案手法が最適に近い平均性能で決定ルールを生成することを示す。
論文 参考訳(メタデータ) (2023-03-11T23:19:32Z) - Distributed Stochastic Optimization under a General Variance Condition [13.911633636387059]
分散最適化は最近、大規模な機械学習問題の解決に効果があるとして、大きな注目を集めている。
我々は、古典的フェデレーション平均化(Avg)を再考し、滑らかな非対象関数に対して、緩やかな分散しか持たない収束結果を確立する。
ほぼ1つの定常収束点も勾配条件の下で成立する。
論文 参考訳(メタデータ) (2023-01-30T05:48:09Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
論文 参考訳(メタデータ) (2021-05-20T13:08:06Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。