論文の概要: Meta-Learning Mini-Batch Risk Functionals
- arxiv url: http://arxiv.org/abs/2301.11724v1
- Date: Fri, 27 Jan 2023 14:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:28:03.531163
- Title: Meta-Learning Mini-Batch Risk Functionals
- Title(参考訳): メタ学習型ミニバッチリスク関数
- Authors: Jacob Tyo, Zachary C. Lipton
- Abstract要約: モデルトレーニング中に解釈可能なミニバッチリスク関数を学習するメタラーニングに基づく手法を提案する。
様々なリスク関数を最適化する場合、学習されたミニバッチリスク関数は、手作業によるミニバッチリスク関数よりも10%のリスク低減につながる。
- 参考スコア(独自算出の注目度): 26.13086713244309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised learning typically optimizes the expected value risk functional of
the loss, but in many cases, we want to optimize for other risk functionals. In
full-batch gradient descent, this is done by taking gradients of a risk
functional of interest, such as the Conditional Value at Risk (CVaR) which
ignores some quantile of extreme losses. However, deep learning must almost
always use mini-batch gradient descent, and lack of unbiased estimators of
various risk functionals make the right optimization procedure unclear. In this
work, we introduce a meta-learning-based method of learning an interpretable
mini-batch risk functional during model training, in a single shot. When
optimizing for various risk functionals, the learned mini-batch risk functions
lead to risk reduction of up to 10% over hand-engineered mini-batch risk
functionals. Then in a setting where the right risk functional is unknown a
priori, our method improves over baseline by 14% relative (~9% absolute). We
analyze the learned mini-batch risk functionals at different points through
training, and find that they learn a curriculum (including warm-up periods),
and that their final form can be surprisingly different from the underlying
risk functional that they optimize for.
- Abstract(参考訳): 監視学習は一般的に損失の期待値リスク関数を最適化するが、多くの場合、他のリスク関数を最適化したい。
フルバッチ勾配降下において、これは、極度の損失の定量化を無視したCVaR(Conditional Value at Risk)のような、利害のリスク関数の勾配を取ることによって行われる。
しかし、ディープラーニングは、ほとんど常にミニバッチ勾配勾配を用いる必要があり、様々なリスク関数の偏りのない推定器がないため、正しい最適化手順は不明確である。
本稿では,メタラーニングに基づくモデルトレーニング中に,解釈可能なミニバッチリスク機能を学ぶ手法を1ショットで紹介する。
様々なリスク関数を最適化する場合、学習されたミニバッチリスク関数は、手作業によるミニバッチリスク関数よりも10%のリスク低減につながる。
そして, 適切なリスク関数が未知の前提条件下では, 基準値よりも14%(絶対値=9%)向上する。
我々は、学習したミニバッチリスク関数をトレーニングを通じて異なるポイントで分析し、カリキュラム(ウォームアップ期間を含む)を学習し、最終形が最適化する基盤となるリスク関数と驚くほど異なることを発見した。
関連論文リスト
- Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Taylor Learning [0.0]
経験的リスク最小化は、教師付き機械学習におけるほとんどの最適化の背後にある。
本稿では,勾配降下や経験的リスク最小化を用いない実解析関数モデルを構築するための学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:10:58Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive
Navigation [11.159052409842923]
本稿では,不確実性を認識したポリシを学習し,高額な微調整や再訓練を行うことなくリスク尺度を変更できる新しい分散RLアルゴリズムを提案する。
本手法は,部分的に観測されたナビゲーションタスクにおけるベースラインよりも優れた性能と安全性を示す。
論文 参考訳(メタデータ) (2021-04-07T13:23:53Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。