論文の概要: Smoothing Advantage Learning
- arxiv url: http://arxiv.org/abs/2203.10445v1
- Date: Sun, 20 Mar 2022 03:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:15:57.619686
- Title: Smoothing Advantage Learning
- Title(参考訳): 有利な学習の円滑化
- Authors: Yaozhong Gan, Zhe Zhang, Xiaoyang Tan
- Abstract要約: 我々は、スムーシング・アドバンテージ・ラーニング (SAL) という、シンプルなアドバンテージ・ラーニング (AL) の変種を提案する。
提案手法は, 収束率と近似誤差の上界とのトレードオフを制御し, ALの訓練手順を安定させるだけでなく, 最適作用値と準最適作用値との作用ギャップを増大させることにも有用である。
- 参考スコア(独自算出の注目度): 20.760987175553645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advantage learning (AL) aims to improve the robustness of value-based
reinforcement learning against estimation errors with action-gap-based
regularization. Unfortunately, the method tends to be unstable in the case of
function approximation. In this paper, we propose a simple variant of AL, named
smoothing advantage learning (SAL), to alleviate this problem. The key to our
method is to replace the original Bellman Optimal operator in AL with a smooth
one so as to obtain more reliable estimation of the temporal difference target.
We give a detailed account of the resulting action gap and the performance
bound for approximate SAL. Further theoretical analysis reveals that the
proposed value smoothing technique not only helps to stabilize the training
procedure of AL by controlling the trade-off between convergence rate and the
upper bound of the approximation errors, but is beneficial to increase the
action gap between the optimal and sub-optimal action value as well.
- Abstract(参考訳): アドバンテージラーニング(AL)は,行動ギャップに基づく正規化による推定誤差に対する価値に基づく強化学習の堅牢性の向上を目的としている。
残念ながら、この方法は関数近似の場合不安定になる傾向がある。
本稿では,この問題を緩和するために,スムージング・アドバンスト・ラーニング (SAL) というシンプルなALの変種を提案する。
提案手法の鍵となるのは,ALのベルマン最適演算子をスムーズな演算子に置き換えることで,時間差目標の信頼性を高めることである。
得られた動作ギャップと、近似SALに対する性能バウンドの詳細な説明を行う。
さらに, 提案手法は, 収束率と近似誤差の上界とのトレードオフを制御し, ALの訓練手順を安定させるだけでなく, 最適作用値と準最適作用値との作用ギャップを増大させることで有効であることを示した。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
視覚言語モデル(VLM)におけるOOD精度と校正誤差の両方を改善する頑健な微調整法を提案する。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Smooth Sailing: Improving Active Learning for Pre-trained Language
Models with Representation Smoothness Analysis [3.490038106567192]
アクティブラーニング(AL)手法は、教師あり学習におけるラベルの複雑さを低減することを目的としている。
本稿では,検証セットを必要としない早期停止手法を提案する。
タスク適応がALを改善するのに対して、ALの標準のショート微調整はランダムサンプリングよりも改善しない。
論文 参考訳(メタデータ) (2022-12-20T19:37:20Z) - Robust Action Gap Increasing with Clipped Advantage Learning [20.760987175553645]
本稿では,この問題に対処するための新しい手法として,Cellped Advantage Learning (clipped AL)を提案する。
我々の単純なクリッピングAL演算子は、高速収束の保証を享受するだけでなく、適切な作用ギャップも保持するので、大きな作用ギャップと高速収束のバランスが良い。
論文 参考訳(メタデータ) (2022-03-20T03:41:26Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Distributionally Robust Learning with Stable Adversarial Training [34.74504615726101]
経験的リスク最小化を伴う機械学習アルゴリズムは、分散シフトの下で脆弱である。
そこで本稿では,異種データソースを活用して,より実用的な不確実性セットを構築する,SAL(Stable Adversarial Learning)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-30T03:05:45Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Stable Adversarial Learning under Distributional Shifts [46.98655899839784]
経験的リスク最小化を伴う機械学習アルゴリズムは、分散シフトの下で脆弱である。
本研究では、異種データソースを活用してより実用的な不確実性セットを構築する安定適応学習(SAL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-08T08:42:34Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。