論文の概要: Stochastic Optimization for Spectral Risk Measures
- arxiv url: http://arxiv.org/abs/2212.05149v1
- Date: Sat, 10 Dec 2022 00:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:54:21.374389
- Title: Stochastic Optimization for Spectral Risk Measures
- Title(参考訳): スペクトルリスク測度の確率的最適化
- Authors: Ronak Mehta, Vincent Roulet, Krishna Pillutla, Lang Liu, Zaid
Harchaoui
- Abstract要約: スペクトルリスク目標により、学習システムは(経験的リスク最小化のように)平均ケースパフォーマンスを最適化することと、タスクにおける最悪のケースパフォーマンスとを補間することができる。
本研究では,これらの量の偏差を特徴付けるアルゴリズムを開発し,次亜次推定の偏りや目的の非滑らかさといった課題に対処する。
- 参考スコア(独自算出の注目度): 5.55979411072702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral risk objectives - also called $L$-risks - allow for learning systems
to interpolate between optimizing average-case performance (as in empirical
risk minimization) and worst-case performance on a task. We develop stochastic
algorithms to optimize these quantities by characterizing their subdifferential
and addressing challenges such as biasedness of subgradient estimates and
non-smoothness of the objective. We show theoretically and experimentally that
out-of-the-box approaches such as stochastic subgradient and dual averaging are
hindered by bias and that our approach outperforms them.
- Abstract(参考訳): スペクトルリスク目標(別名$L$-risks)は、平均ケースパフォーマンスの最適化(経験的リスク最小化など)とタスクにおける最悪のケースパフォーマンスの相互比較を可能にする。
我々は,それらの部分微分を特徴付けることで,それらの量を最適化する確率的アルゴリズムを開発し,その課題に対処した。
確率的劣次法や双対平均法のような既定のアプローチがバイアスによって妨げられ、我々のアプローチがそれらを上回っていることを理論的および実験的に示す。
関連論文リスト
- Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文 参考訳(メタデータ) (2023-10-25T10:53:04Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。