Fugu-MT 論文翻訳(概要): Stochastic Optimization for Spectral Risk Measures

論文の概要: Stochastic Optimization for Spectral Risk Measures

arxiv url: http://arxiv.org/abs/2212.05149v1
Date: Sat, 10 Dec 2022 00:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 15:54:21.374389
Title: Stochastic Optimization for Spectral Risk Measures
Title（参考訳）: スペクトルリスク測度の確率的最適化
Authors: Ronak Mehta, Vincent Roulet, Krishna Pillutla, Lang Liu, Zaid Harchaoui
Abstract要約: スペクトルリスク目標により、学習システムは(経験的リスク最小化のように)平均ケースパフォーマンスを最適化することと、タスクにおける最悪のケースパフォーマンスとを補間することができる。本研究では,これらの量の偏差を特徴付けるアルゴリズムを開発し,次亜次推定の偏りや目的の非滑らかさといった課題に対処する。
参考スコア（独自算出の注目度）: 5.55979411072702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spectral risk objectives - also called $L$-risks - allow for learning systems to interpolate between optimizing average-case performance (as in empirical risk minimization) and worst-case performance on a task. We develop stochastic algorithms to optimize these quantities by characterizing their subdifferential and addressing challenges such as biasedness of subgradient estimates and non-smoothness of the objective. We show theoretically and experimentally that out-of-the-box approaches such as stochastic subgradient and dual averaging are hindered by bias and that our approach outperforms them.
Abstract（参考訳）: スペクトルリスク目標(別名$L$-risks)は、平均ケースパフォーマンスの最適化(経験的リスク最小化など)とタスクにおける最悪のケースパフォーマンスの相互比較を可能にする。我々は,それらの部分微分を特徴付けることで,それらの量を最適化する確率的アルゴリズムを開発し,その課題に対処した。確率的劣次法や双対平均法のような既定のアプローチがバイアスによって妨げられ、我々のアプローチがそれらを上回っていることを理論的および実験的に示す。

関連論文リスト

Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文参考訳（メタデータ） (2025-02-27T09:56:51Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文参考訳（メタデータ） (2023-12-21T16:34:03Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Pitfall of Optimism: Distributional Reinforcement Learning by Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文参考訳（メタデータ） (2023-10-25T10:53:04Z)
Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。また、勾配法のようなベースラインよりも2～3$times$早く収束できることも示している。
論文参考訳（メタデータ） (2023-10-21T00:03:54Z)
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文参考訳（メタデータ） (2022-06-29T14:11:15Z)
Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。 RLで発生するノイズ管理における不確実性の原因を系統的に分析する。本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文参考訳（メタデータ） (2022-01-05T15:46:06Z)
Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文参考訳（メタデータ） (2021-11-29T15:10:09Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。