論文の概要: WIMLE: Uncertainty-Aware World Models with IMLE for Sample-Efficient Continuous Control
- arxiv url: http://arxiv.org/abs/2602.14351v1
- Date: Sun, 15 Feb 2026 23:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.966894
- Title: WIMLE: Uncertainty-Aware World Models with IMLE for Sample-Efficient Continuous Control
- Title(参考訳): WIMLE: サンプル効率の良い連続制御のためのIMLEを用いた不確かさを意識した世界モデル
- Authors: Mehran Aghabozorgi, Alireza Moazeni, Yanshu Zhang, Ke Li,
- Abstract要約: 本稿では,モデルベースRLフレームワークにImplicit Likelihood Estimation Maximum(IMLE)を拡張するモデルベース手法であるWIMLEを紹介する。
WIMLEは、予測された信頼度によってそれぞれの合成遷移を重み付け、不確実な予測からバイアスを減らしながら有用なモデルロールアウトを保存する。
- 参考スコア(独自算出の注目度): 7.955968481451522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning promises strong sample efficiency but often underperforms in practice due to compounding model error, unimodal world models that average over multi-modal dynamics, and overconfident predictions that bias learning. We introduce WIMLE, a model-based method that extends Implicit Maximum Likelihood Estimation (IMLE) to the model-based RL framework to learn stochastic, multi-modal world models without iterative sampling and to estimate predictive uncertainty via ensembles and latent sampling. During training, WIMLE weights each synthetic transition by its predicted confidence, preserving useful model rollouts while attenuating bias from uncertain predictions and enabling stable learning. Across $40$ continuous-control tasks spanning DeepMind Control, MyoSuite, and HumanoidBench, WIMLE achieves superior sample efficiency and competitive or better asymptotic performance than strong model-free and model-based baselines. Notably, on the challenging Humanoid-run task, WIMLE improves sample efficiency by over $50$\% relative to the strongest competitor, and on HumanoidBench it solves $8$ of $14$ tasks (versus $4$ for BRO and $5$ for SimbaV2). These results highlight the value of IMLE-based multi-modality and uncertainty-aware weighting for stable model-based RL.
- Abstract(参考訳): モデルベース強化学習は、強いサンプル効率を約束するが、モデルエラーの複合化、マルチモーダル力学よりも平均的な非モード世界モデル、バイアス学習の過信予測などにより、実際は性能が低下することが多い。
本稿では,Implicit Maximum Likelihood Estimation (IMLE)をモデルベースRLフレームワークに拡張したモデルベース手法であるWIMLEを紹介する。
トレーニング中、WIMLEは予測された信頼度によって各合成遷移を重み付け、不確実な予測からバイアスを減らし、安定した学習を可能にしながら有用なモデルロールアウトを保存する。
DeepMind Control、MyoSuite、HumanoidBenchにまたがる40ドルの連続制御タスクにおいて、WIMLEは強力なモデルフリーとモデルベースベースラインよりも優れたサンプル効率と競争性、あるいは漸近性能を実現している。
特に、挑戦的なHumanoid-runタスクでは、WIMLEは最強のライバルと比較して50ドル以上のサンプル効率を向上し、HumanoidBenchでは14ドルのタスク(BROは4ドル、SimbaV2は5ドル)を解決している。
これらの結果は、安定モデルベースRLにおけるIMLEに基づくマルチモーダリティと不確実性を考慮した重み付けの価値を強調した。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - A Dynamic Approach to Stock Price Prediction: Comparing RNN and Mixture of Experts Models Across Different Volatility Profiles [0.0]
MoEフレームワークは揮発性株のRNNと安定株の線形モデルを組み合わせて、ゲーティングネットワークを介して各モデルの重量を動的に調整する。
その結果,MoE法は様々な変動性プロファイルの予測精度を著しく向上させることがわかった。
MoEモデルの適応性は個々のモデルよりも優れており、Mean Squared Error(MSE)やMean Absolute Error(MAE)などのエラーを減らすことができる。
論文 参考訳(メタデータ) (2024-10-04T14:36:21Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Maintaining Stability and Plasticity for Predictive Churn Reduction [8.971668467496055]
我々は,累積モデル組合せ (AMC) という解を提案する。
AMCは一般的な手法であり、モデルやデータ特性に応じてそれぞれ独自の利点を持ついくつかの事例を提案する。
論文 参考訳(メタデータ) (2023-05-06T20:56:20Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。