論文の概要: A Contraction Approach to Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.08586v2
- Date: Thu, 25 Feb 2021 11:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:06:19.747405
- Title: A Contraction Approach to Model-based Reinforcement Learning
- Title(参考訳): モデルベース強化学習への縮小アプローチ
- Authors: Ting-Han Fan, Peter J. Ramadge
- Abstract要約: 本研究では, 累積報酬の誤差を縮尺法を用いて解析する。
分岐ロールアウトは、このエラーを減らすことができることを証明します。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
- 参考スコア(独自算出の注目度): 11.701145942745274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its experimental success, Model-based Reinforcement Learning still
lacks a complete theoretical understanding. To this end, we analyze the error
in the cumulative reward using a contraction approach. We consider both
stochastic and deterministic state transitions for continuous (non-discrete)
state and action spaces. This approach doesn't require strong assumptions and
can recover the typical quadratic error to the horizon. We prove that branched
rollouts can reduce this error and are essential for deterministic transitions
to have a Bellman contraction. Our analysis of policy mismatch error also
applies to Imitation Learning. In this case, we show that GAN-type learning has
an advantage over Behavioral Cloning when its discriminator is well-trained.
- Abstract(参考訳): 実験的な成功にもかかわらず、モデルに基づく強化学習には理論的な理解が欠けている。
そこで本研究では,累積報酬の誤差を収縮法を用いて解析する。
連続(非離散)状態および作用空間に対する確率的および決定論的状態遷移を考える。
このアプローチは強い仮定を必要としないため、典型的な二次誤差を地平線に戻すことができる。
分岐ロールアウトがこの誤差を減らし、ベルマン収縮を持つ決定論的遷移に不可欠であることを示す。
政策ミスマッチエラーの分析は、Imitation Learningにも適用できる。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - STRAPPER: Preference-based Reinforcement Learning via Self-training
Augmentation and Peer Regularization [18.811470043767713]
優先に基づく強化学習(PbRL)は、複雑な報酬関数を2進的な人間の好みで学習することを約束する。
本稿では,不定形ラベルを記憶した報酬モデルをペナルティ化し,自信ある予測を得る自己学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T00:31:58Z) - When No-Rejection Learning is Consistent for Regression with Rejection [11.244583592648443]
本研究では,すべてのデータを用いて予測を学習するノンリジェクト学習戦略について検討する。
本稿では,すべてのデータを用いて予測を学習するノンリジェクト学習戦略について検討する。
論文 参考訳(メタデータ) (2023-07-06T11:43:22Z) - Supervised learning with probabilistic morphisms and kernel mean
embeddings [0.0]
本稿では,教師あり学習における2つのアプローチを統一した教師あり学習モデルを提案する。
統計的学習理論において無視されてきた2つの測定可能性問題に対処する。
不正な問題を解くために,Vapnik-Stefanuykの正規化手法の変種を提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:21Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Robust Unsupervised Learning via L-Statistic Minimization [38.49191945141759]
教師なし学習に焦点をあて、この問題に対する一般的なアプローチを提示する。
重要な仮定は、摂動分布は、許容モデルの特定のクラスに対するより大きな損失によって特徴付けられることである。
教師なし学習におけるいくつかのポピュラーモデルに対する提案基準に関して,一様収束境界を証明した。
論文 参考訳(メタデータ) (2020-12-14T10:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。