論文の概要: Discount Factor as a Regularizer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.02040v1
- Date: Sat, 4 Jul 2020 08:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:02:23.474685
- Title: Discount Factor as a Regularizer in Reinforcement Learning
- Title(参考訳): 強化学習における正規化因子としての割引因子
- Authors: Ron Amit, Ron Meir, Kamil Ciosek
- Abstract要約: 低い割引係数でRLアルゴリズムを適用することは、レギュレータとして機能し、限られたデータ構造の性能を向上させることが知られている。
削減割引係数を用いることと、アルゴリズムの損失に明示的な正規化項を追加することの間には、明らかな等価性を示す。
等価性によって動機付けられたこの手法を、標準の$L$正規化と比較して実証的に研究する。
- 参考スコア(独自算出の注目度): 23.56942940879309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specifying a Reinforcement Learning (RL) task involves choosing a suitable
planning horizon, which is typically modeled by a discount factor. It is known
that applying RL algorithms with a lower discount factor can act as a
regularizer, improving performance in the limited data regime. Yet the exact
nature of this regularizer has not been investigated. In this work, we fill in
this gap. For several Temporal-Difference (TD) learning methods, we show an
explicit equivalence between using a reduced discount factor and adding an
explicit regularization term to the algorithm's loss. Motivated by the
equivalence, we empirically study this technique compared to standard $L_2$
regularization by extensive experiments in discrete and continuous domains,
using tabular and functional representations. Our experiments suggest the
regularization effectiveness is strongly related to properties of the available
data, such as size, distribution, and mixing rate.
- Abstract(参考訳): 強化学習(RL)タスクの特定には、通常割引係数によってモデル化される適切な計画の地平を選択する必要がある。
割引率の低いrlアルゴリズムを適用すれば、制限されたデータレジームのパフォーマンスを向上させるレギュレータとして機能することが知られている。
しかし、この正規化器の正確な性質は調査されていない。
この作業では、このギャップを埋めます。
時間差学習(TD)では,減算係数を用いた場合と,アルゴリズムの損失に対して明示的な正規化項を追加する場合の有意な等価性を示す。
等価性によって動機付けられたこの手法は、表や関数表現を用いて離散および連続領域における広範な実験による標準の$L_2$正規化と比較して経験的に研究する。
実験の結果, 正則化の有効性は, サイズ, 分布, 混合速度など, 利用可能なデータの性質と強く関係していることがわかった。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer [16.716653844774374]
クラス内相関係数(ICC)を用いて埋め込みの再現性を評価する。
我々は、より高い繰り返し性を持つ埋め込みを生成するために、ディープニューラルネットワークを誘導する対照的な損失を補うために、新しい正則化器であるICC正則化器を提案する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、およびディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T23:21:46Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Supervised Contrastive Learning with Heterogeneous Similarity for
Distribution Shifts [3.7819322027528113]
本稿では,教師付きコントラスト学習を用いた新たな正規化手法を提案する。
サブポピュレーションシフトや領域一般化などの分布シフトをエミュレートするベンチマークデータセットの実験は,提案手法の利点を実証している。
論文 参考訳(メタデータ) (2023-04-07T01:45:09Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Iterative regularization in classification via hinge loss diagonal descent [12.684351703991965]
反復正規化(英: Iterative regularization)は、最近機械学習で人気になった正規化理論における古典的な考え方である。
本稿では,分類の文脈における反復正則化に着目した。
論文 参考訳(メタデータ) (2022-12-24T07:15:26Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Density Fixing: Simple yet Effective Regularization Method based on the
Class Prior [2.3859169601259347]
本稿では,教師付き・半教師付き学習によく用いられる密度固定法という正規化手法の枠組みを提案する。
提案手法は,モデルの事前分布や発生頻度を近似させることで,一般化性能を向上させる。
論文 参考訳(メタデータ) (2020-07-08T04:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。