論文の概要: Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption
- arxiv url: http://arxiv.org/abs/2405.19014v2
- Date: Tue, 4 Jun 2024 13:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 10:40:04.669719
- Title: Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption
- Title(参考訳): 自らを信頼するモデルを信頼する - 不確かさを意識したロールアウト適応を用いたモデルベースアクタ批判
- Authors: Bernd Frauenknecht, Artur Eisele, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe,
- Abstract要約: ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。
そこで本研究では,データ効率と性能の大幅な向上を図り,使い易いロールアウト機構を提案する。
- 参考スコア(独自算出の注目度): 4.664767161598515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dyna-style model-based reinforcement learning (MBRL) combines model-free agents with predictive transition models through model-based rollouts. This combination raises a critical question: 'When to trust your model?'; i.e., which rollout length results in the model providing useful data? Janner et al. (2019) address this question by gradually increasing rollout lengths throughout the training. While theoretically tempting, uniform model accuracy is a fallacy that collapses at the latest when extrapolating. Instead, we propose asking the question 'Where to trust your model?'. Using inherent model uncertainty to consider local accuracy, we obtain the Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption (MACURA) algorithm. We propose an easy-to-tune rollout mechanism and demonstrate substantial improvements in data efficiency and performance compared to state-of-the-art deep MBRL methods on the MuJoCo benchmark.
- Abstract(参考訳): ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。
この組み合わせは、重要な疑問を提起する: 「モデルをいつ信頼するか?」、すなわち、どのロールアウト期間が、有用なデータを提供するモデルに結果をもたらすか?
Janner et al (2019)は、トレーニング全体を通して徐々にロールアウトの長さを増やしてこの問題に対処している。
理論上は誘惑的であるが、一様モデルの精度は、外挿時に最新の段階で崩壊する誤りである。
その代わり、我々は「モデルを信頼するだろうか」という質問をする。
局所的精度を考慮するために固有モデル不確実性を用いることで、不確かさを意識したロールアウト適応(MACURA)アルゴリズムを得る。
本研究では, MuJoCo ベンチマークにおける最先端の深層MBRL 法と比較して, データの効率と性能を著しく向上する機構を提案する。
関連論文リスト
- Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - ALUM: Adversarial Data Uncertainty Modeling from Latent Model
Uncertainty Compensation [25.67258563807856]
本稿では,モデル不確実性とデータ不確実性を扱うALUMという新しい手法を提案する。
提案するALUMはモデルに依存しないため,オーバーヘッドの少ない既存のディープモデルに容易に実装できる。
論文 参考訳(メタデータ) (2023-03-29T17:24:12Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。
我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2020-11-23T01:36:05Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Trust the Model When It Is Confident: Masked Model-based Actor-Critic [11.675078067322897]
Masked Model-based Actor-Critic (M2AC)は、新しいポリシー最適化アルゴリズムである。
M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
論文 参考訳(メタデータ) (2020-10-10T03:39:56Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。