論文の概要: EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control
- arxiv url: http://arxiv.org/abs/2605.16692v2
- Date: Tue, 19 May 2026 14:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.466913
- Title: EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control
- Title(参考訳): 効率の良いTDMPC: サンプル効率の良い連続制御のための改良されたMPCオブジェクト
- Authors: Thomas Evers, Cristian Meo, Wendelin Bohmer, Justin Dauwels, Yaniv Oren,
- Abstract要約: 本稿では,TD-MPCファミリ上に構築された連続制御のためのサンプル効率のよいモデルベース強化学習手法であるEfficientTDMPCを紹介する。
我々は,HumanoidBench-Hard と DMC のサンプル効率において,SOTA と DMC とのマッチングが容易であり,高効率なTDMPC がSOTA (State-of-the-art) を実現することを発見した。
- 参考スコア(独自算出の注目度): 8.999819762577351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EfficientTDMPC, a sample-efficient model-based reinforcement learning method for continuous control built on the TD-MPC family of algorithms. Central to this family is a planner that aims to find an action sequence that maximizes the estimated return. The return is estimated using a learned model and value networks, each of which can introduce error. EfficientTDMPC proposes to reduce this error in two ways. First, it introduces an ensemble of dynamics models and averages the return estimates across those models and across different rollout depths. Second, it adds the option to apply an uncertainty penalty to the planner objective, yielding a planner that avoids actions with uncertain return estimates. It then adds practical improvements which increase buffer data freshness and reduce compute. Lastly, we find that our contributions enable EfficientTDMPC to benefit more from a higher update-to-data (UTD) ratio, further improving sample efficiency. To the best of our knowledge, in the low data regime of each benchmark, EfficientTDMPC achieves state-of-the-art (SOTA) in terms of sample efficiency on HumanoidBench-Hard and DMC hard, while matching SOTA on DMC easy.
- Abstract(参考訳): 本稿では,TD-MPCファミリ上に構築された連続制御のためのサンプル効率のよいモデルベース強化学習手法であるEfficientTDMPCを紹介する。
このファミリーの中心は、推定されたリターンを最大化するアクションシーケンスを見つけることを目的としたプランナーである。
リターンは学習したモデルとバリューネットワークを使って推定され、それぞれがエラーを発生させることができる。
効率的なTDMPCは、このエラーを2つの方法で削減することを提案している。
まず、ダイナミックスモデルのアンサンブルを導入し、それらのモデルと異なるロールアウト深さにわたるリターン推定を平均化する。
第二に、プランナーの目的に不確実なペナルティを適用するオプションが追加され、不確実なリターン推定を伴うアクションを避けるプランナーが得られる。
そして、バッファデータの鮮度を高め、計算量を削減する実用的な改善が加えられる。
最後に、我々のコントリビューションにより、EfficientTDMPCはより高い更新データ(UTD)比の恩恵を受けることができ、さらにサンプル効率を向上させることができる。
我々の知る限り、各ベンチマークの低データ方式では、HumanoidBench-Hard と DMC のサンプル効率の観点から、SOTA を DMC 上でSOTA と容易にマッチングしながら、最先端 (SOTA) を達成することができる。
関連論文リスト
- Cost-Matching Model Predictive Control for Efficient Reinforcement Learning in Humanoid Locomotion [15.125805248577278]
モデル予測制御(MPC)に基づく強化学習フレームワークにおいて,最適なヒューマノイド移動のためのコストマッチング手法を提案する。
高忠実度閉ループデータから得られる作用値関数を近似するために、遠心力学を用いたパラメータ化MPC定式化を訓練する。
その結果, モデルミスマッチと外乱に対するロコモーション性能とロバスト性の改善が示された。
論文 参考訳(メタデータ) (2026-03-30T10:05:15Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文 参考訳(メタデータ) (2024-10-06T17:12:10Z) - Maintaining Stability and Plasticity for Predictive Churn Reduction [8.971668467496055]
我々は,累積モデル組合せ (AMC) という解を提案する。
AMCは一般的な手法であり、モデルやデータ特性に応じてそれぞれ独自の利点を持ついくつかの事例を提案する。
論文 参考訳(メタデータ) (2023-05-06T20:56:20Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。
また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-18T15:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。