論文の概要: On Rollouts in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.16918v1
- Date: Tue, 28 Jan 2025 13:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:57.489560
- Title: On Rollouts in Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習におけるロールアウトについて
- Authors: Bernd Frauenknecht, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe,
- Abstract要約: モデルベース強化学習(MBRL)は、環境のモデルを学び、そこから合成ロールアウトを生成することにより、データ効率を向上させることを目指している。
これらのロールアウト中に蓄積されたモデルエラーは、データの分散を歪め、ポリシー学習に悪影響を及ぼし、長期計画を妨げる可能性がある。
本稿では,アレータリックをモデル不確実性から分離し,データ分布に対する後者の影響を低減するモデルベースのロールアウト機構であるInfopropを提案する。
- 参考スコア(独自算出の注目度): 5.004576576202551
- License:
- Abstract: Model-based reinforcement learning (MBRL) seeks to enhance data efficiency by learning a model of the environment and generating synthetic rollouts from it. However, accumulated model errors during these rollouts can distort the data distribution, negatively impacting policy learning and hindering long-term planning. Thus, the accumulation of model errors is a key bottleneck in current MBRL methods. We propose Infoprop, a model-based rollout mechanism that separates aleatoric from epistemic model uncertainty and reduces the influence of the latter on the data distribution. Further, Infoprop keeps track of accumulated model errors along a model rollout and provides termination criteria to limit data corruption. We demonstrate the capabilities of Infoprop in the Infoprop-Dyna algorithm, reporting state-of-the-art performance in Dyna-style MBRL on common MuJoCo benchmark tasks while substantially increasing rollout length and data quality.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、環境のモデルを学び、そこから合成ロールアウトを生成することにより、データ効率を向上させることを目指している。
しかし、これらのロールアウト中に蓄積されたモデルエラーは、データの分散を歪ませ、政策学習に悪影響を及ぼし、長期計画を妨げる可能性がある。
したがって、モデル誤差の蓄積は、現在のMBRL法において重要なボトルネックとなっている。
本稿では,アレータリックとてんかんモデルの不確かさを分離し,後者がデータ分布に与える影響を低減するモデルベースのロールアウト機構であるInfopropを提案する。
さらにInfopropは、モデルロールアウトに沿って蓄積されたモデルエラーを追跡し、データ破損を制限するための終了基準を提供する。
我々はInfoprop-DynaアルゴリズムにおけるInfopropの機能を示し、一般的なMuJoCoベンチマークタスク上でDynaスタイルのMBRLの最先端性能を報告し、ロールアウト時間とデータ品質を大幅に向上させる。
関連論文リスト
- Exploring Patterns Behind Sports [3.2838877620203935]
本稿では、ARIMAとLSTMを組み合わせたハイブリッドモデルを用いて、時系列予測のための包括的なフレームワークを提案する。
このモデルには埋め込みやPCAといった機能エンジニアリング技術が組み込まれており、生データを低次元の表現に変換する。
論文 参考訳(メタデータ) (2025-02-11T11:51:07Z) - Generative Modeling and Data Augmentation for Power System Production Simulation [0.0]
本稿では,小さなサンプルシナリオ下での負荷予測のための生成モデル支援手法を提案する。
拡張データセットは、元のデータセットと比較して予測エラーを大幅に削減する。
拡散モデルは、約200倍の誤差を達成し、生成的敵モデルより優れる。
論文 参考訳(メタデータ) (2024-12-10T12:38:47Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Differentially Private ERM Based on Data Perturbation [41.37436071802578]
最終学習モデルにおける各種トレーニングデータインスタンスのコントリビューションを測定した。
本手法の鍵は各データインスタンスを別々に計測することであり,DP-ERMのための新しいデータ摂動(DB)パラダイムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。