論文の概要: TD-MPC2: Scalable, Robust World Models for Continuous Control
- arxiv url: http://arxiv.org/abs/2310.16828v2
- Date: Thu, 21 Mar 2024 17:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-23 00:46:29.027636
- Title: TD-MPC2: Scalable, Robust World Models for Continuous Control
- Title(参考訳): TD-MPC2:継続的制御のためのスケーラブルでロバストな世界モデル
- Authors: Nicklas Hansen, Hao Su, Xiaolong Wang,
- Abstract要約: TD-MPCはモデルに基づく強化学習アルゴリズムである。
本稿では,TD-MPCアルゴリズムを改良したTD-MPC2を提案する。
- 参考スコア(独自算出の注目度): 33.54635410095986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://tdmpc2.com
- Abstract(参考訳): TD-MPCは、学習された暗黙(デコーダなし)世界モデルの潜在空間において局所軌道最適化を行うモデルベース強化学習(RL)アルゴリズムである。
本稿では,TD-MPCアルゴリズムを改良したTD-MPC2を提案する。
我々は,TD-MPC2が4つのタスク領域にまたがる104のオンラインRLタスクのベースラインを大幅に改善し,一組のハイパーパラメータで一貫した結果が得られることを示した。
さらに,モデルやデータサイズによってエージェント能力が向上し,複数のタスク領域,実施形態,行動空間にまたがる80のタスクを実行するために,単一の317Mパラメータエージェントをトレーニングすることに成功していることを示す。
我々は,大規模なTD-MPC2エージェントに関連する教訓,機会,リスクについて考察した。
https://tdmpc2.comでビデオ、モデル、データ、コードなどを探る
関連論文リスト
- PWM: Policy Learning with Large World Models [37.678858748473196]
強化学習(RL)は複雑なタスクにおいて印象的な結果を得たが、異なる実施形態を持つマルチタスク設定に苦戦している。
我々は,大規模マルチタスク世界モデルから連続制御ポリシを学習する新しいモデルベースRLアルゴリズムである,大規模世界モデルを用いたポリシー学習(PWM)を紹介する。
論文 参考訳(メタデータ) (2024-07-02T17:47:03Z) - MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning [1.4396109429521227]
大規模データセットに事前トレーニングされたモデルを、さまざまな下流タスクに適応させることは、ディープラーニングにおける一般的な戦略である。
パラメータ効率のよい微調整手法は、最小限のパラメータだけを訓練しながら、事前訓練されたモデルを異なるタスクに適応させる有望な方法として登場した。
本稿では,マルチタスク学習モデルのパラメータ効率向上のための新しいフレームワークMTLoRAを紹介する。
論文 参考訳(メタデータ) (2024-03-29T17:43:58Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - TempLe: Learning Template of Transitions for Sample Efficient Multi-task
RL [18.242904106537654]
TempLeはマルチタスク強化学習のための最初のPAC-MDP法である。
オンライン" と "有限モデル" の2つのアルゴリズムをそれぞれ提示する。
提案したTempLeアルゴリズムは,シングルタスク学習者や最先端のマルチタスク手法よりもはるかに低いサンプリング複雑性を実現する。
論文 参考訳(メタデータ) (2020-02-16T19:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。