論文の概要: A Contraction Approach to Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.08586v2
- Date: Thu, 25 Feb 2021 11:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-17 02:06:19.747405
- Title: A Contraction Approach to Model-based Reinforcement Learning
- Title(参考訳): モデルベース強化学習への縮小アプローチ
- Authors: Ting-Han Fan, Peter J. Ramadge
- Abstract要約: 本研究では, 累積報酬の誤差を縮尺法を用いて解析する。
分岐ロールアウトは、このエラーを減らすことができることを証明します。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
- 参考スコア(独自算出の注目度): 11.701145942745274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its experimental success, Model-based Reinforcement Learning still
lacks a complete theoretical understanding. To this end, we analyze the error
in the cumulative reward using a contraction approach. We consider both
stochastic and deterministic state transitions for continuous (non-discrete)
state and action spaces. This approach doesn't require strong assumptions and
can recover the typical quadratic error to the horizon. We prove that branched
rollouts can reduce this error and are essential for deterministic transitions
to have a Bellman contraction. Our analysis of policy mismatch error also
applies to Imitation Learning. In this case, we show that GAN-type learning has
an advantage over Behavioral Cloning when its discriminator is well-trained.
- Abstract(参考訳): 実験的な成功にもかかわらず、モデルに基づく強化学習には理論的な理解が欠けている。
そこで本研究では,累積報酬の誤差を収縮法を用いて解析する。
連続(非離散)状態および作用空間に対する確率的および決定論的状態遷移を考える。
このアプローチは強い仮定を必要としないため、典型的な二次誤差を地平線に戻すことができる。
分岐ロールアウトがこの誤差を減らし、ベルマン収縮を持つ決定論的遷移に不可欠であることを示す。
政策ミスマッチエラーの分析は、Imitation Learningにも適用できる。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Ascent Fails to Forget [45.75497227694833]
勾配上昇に基づく非制約最適化手法は、しばしば機械のアンラーニングに失敗することを示した。
我々は、この現象を、データセットを忘れ、保持する際、本質的に統計的に依存しているとみなす。
これらの統計的依存関係の存在は,相関としてのみ現れても,上昇に基づく未学習が失敗するのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-09-30T15:48:49Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - STRAPPER: Preference-based Reinforcement Learning via Self-training
Augmentation and Peer Regularization [18.811470043767713]
優先に基づく強化学習(PbRL)は、複雑な報酬関数を2進的な人間の好みで学習することを約束する。
本稿では,不定形ラベルを記憶した報酬モデルをペナルティ化し,自信ある予測を得る自己学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T00:31:58Z) - When No-Rejection Learning is Consistent for Regression with Rejection [11.244583592648443]
本研究では,すべてのデータを用いて予測を学習するノンリジェクト学習戦略について検討する。
本稿では,すべてのデータを用いて予測を学習するノンリジェクト学習戦略について検討する。
論文 参考訳(メタデータ) (2023-07-06T11:43:22Z) - Supervised learning with probabilistic morphisms and kernel mean
embeddings [0.0]
本稿では,教師あり学習における2つのアプローチを統一した教師あり学習モデルを提案する。
統計的学習理論において無視されてきた2つの測定可能性問題に対処する。
不正な問題を解くために,Vapnik-Stefanuykの正規化手法の変種を提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:21Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Robust Unsupervised Learning via L-Statistic Minimization [38.49191945141759]
教師なし学習に焦点をあて、この問題に対する一般的なアプローチを提示する。
重要な仮定は、摂動分布は、許容モデルの特定のクラスに対するより大きな損失によって特徴付けられることである。
教師なし学習におけるいくつかのポピュラーモデルに対する提案基準に関して,一様収束境界を証明した。
論文 参考訳(メタデータ) (2020-12-14T10:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。