Fugu-MT 論文翻訳(概要): On Rollouts in Model-Based Reinforcement Learning

論文の概要: On Rollouts in Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2501.16918v1
Date: Tue, 28 Jan 2025 13:02:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.145891
Title: On Rollouts in Model-Based Reinforcement Learning
Title（参考訳）: モデルに基づく強化学習におけるロールアウトについて
Authors: Bernd Frauenknecht, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe,
Abstract要約: モデルベース強化学習(MBRL)は、環境のモデルを学び、そこから合成ロールアウトを生成することにより、データ効率を向上させることを目指している。これらのロールアウト中に蓄積されたモデルエラーは、データの分散を歪め、ポリシー学習に悪影響を及ぼし、長期計画を妨げる可能性がある。本稿では,アレータリックをモデル不確実性から分離し,データ分布に対する後者の影響を低減するモデルベースのロールアウト機構であるInfopropを提案する。
参考スコア（独自算出の注目度）: 5.004576576202551
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based reinforcement learning (MBRL) seeks to enhance data efficiency by learning a model of the environment and generating synthetic rollouts from it. However, accumulated model errors during these rollouts can distort the data distribution, negatively impacting policy learning and hindering long-term planning. Thus, the accumulation of model errors is a key bottleneck in current MBRL methods. We propose Infoprop, a model-based rollout mechanism that separates aleatoric from epistemic model uncertainty and reduces the influence of the latter on the data distribution. Further, Infoprop keeps track of accumulated model errors along a model rollout and provides termination criteria to limit data corruption. We demonstrate the capabilities of Infoprop in the Infoprop-Dyna algorithm, reporting state-of-the-art performance in Dyna-style MBRL on common MuJoCo benchmark tasks while substantially increasing rollout length and data quality.
Abstract（参考訳）: モデルベース強化学習(MBRL)は、環境のモデルを学び、そこから合成ロールアウトを生成することにより、データ効率を向上させることを目指している。しかし、これらのロールアウト中に蓄積されたモデルエラーは、データの分散を歪ませ、政策学習に悪影響を及ぼし、長期計画を妨げる可能性がある。したがって、モデル誤差の蓄積は、現在のMBRL法において重要なボトルネックとなっている。本稿では,アレータリックとてんかんモデルの不確かさを分離し,後者がデータ分布に与える影響を低減するモデルベースのロールアウト機構であるInfopropを提案する。さらにInfopropは、モデルロールアウトに沿って蓄積されたモデルエラーを追跡し、データ破損を制限するための終了基準を提供する。我々はInfoprop-DynaアルゴリズムにおけるInfopropの機能を示し、一般的なMuJoCoベンチマークタスク上でDynaスタイルのMBRLの最先端性能を報告し、ロールアウト時間とデータ品質を大幅に向上させる。

関連論文リスト

Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。 MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。 D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文参考訳（メタデータ） (2025-03-26T07:24:34Z)
Generative Modeling and Data Augmentation for Power System Production Simulation [0.0]
本稿では,小さなサンプルシナリオ下での負荷予測のための生成モデル支援手法を提案する。拡張データセットは、元のデータセットと比較して予測エラーを大幅に削減する。拡散モデルは、約200倍の誤差を達成し、生成的敵モデルより優れる。
論文参考訳（メタデータ） (2024-12-10T12:38:47Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。これらの課題に対処するための影響関数フレームワークを開発する。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption [4.664767161598515]
ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。そこで本研究では,データ効率と性能の大幅な向上を図り,使い易いロールアウト機構を提案する。
論文参考訳（メタデータ） (2024-05-29T11:53:07Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文参考訳（メタデータ） (2022-06-17T16:18:28Z)
Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-10-19T14:19:42Z)
Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T15:10:28Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)
Differentially Private ERM Based on Data Perturbation [41.37436071802578]
最終学習モデルにおける各種トレーニングデータインスタンスのコントリビューションを測定した。本手法の鍵は各データインスタンスを別々に計測することであり,DP-ERMのための新しいデータ摂動(DB)パラダイムを提案する。
論文参考訳（メタデータ） (2020-02-20T06:05:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。