論文の概要: Learning Massively Multitask World Models for Continuous Control
- arxiv url: http://arxiv.org/abs/2511.19584v1
- Date: Mon, 24 Nov 2025 18:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.111452
- Title: Learning Massively Multitask World Models for Continuous Control
- Title(参考訳): 連続制御のための大規模マルチタスク世界モデル学習
- Authors: Nicklas Hansen, Hao Su, Xiaolong Wang,
- Abstract要約: 汎用制御は、多くのタスクや実施事項にまたがって行動するエージェントを要求する。
オンラインインタラクションで数百のタスクで、ひとつのエージェントをトレーニングできるかどうかを問う。
本稿では,まず実演で事前学習した言語条件のマルチタスクワールドモデルであるemphNewtを紹介する。
- 参考スコア(独自算出の注目度): 25.87102585211245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: General-purpose control demands agents that act across many tasks and embodiments, yet research on reinforcement learning (RL) for continuous control remains dominated by single-task or offline regimes, reinforcing a view that online RL does not scale. Inspired by the foundation model recipe (large-scale pretraining followed by light RL) we ask whether a single agent can be trained on hundreds of tasks with online interaction. To accelerate research in this direction, we introduce a new benchmark with 200 diverse tasks spanning many domains and embodiments, each with language instructions, demonstrations, and optionally image observations. We then present \emph{Newt}, a language-conditioned multitask world model that is first pretrained on demonstrations to acquire task-aware representations and action priors, and then jointly optimized with online interaction across all tasks. Experiments show that Newt yields better multitask performance and data-efficiency than a set of strong baselines, exhibits strong open-loop control, and enables rapid adaptation to unseen tasks. We release our environments, demonstrations, code for training and evaluation, as well as 200+ checkpoints.
- Abstract(参考訳): 汎用制御は、多くのタスクや実施事項にまたがって行動するエージェントを要求するが、継続的制御のための強化学習(RL)の研究は、オンラインRLがスケールしないという見方を補強し、シングルタスクまたはオフラインのレジームに支配されている。
基礎モデルレシピ(大規模プレトレーニングと軽RL)に触発されて、オンラインインタラクションで数百のタスクで1人のエージェントをトレーニングできるかどうかを問う。
この方向の研究を加速するために、多くの領域と実施領域にまたがる200の多様なタスクからなる新しいベンチマークを導入し、それぞれに言語指示、デモ、オプションで画像観察を行う。
次に、まず、タスク認識表現とアクション先行の取得のために、まずデモで事前訓練された言語条件付きマルチタスク世界モデルである \emph{Newt} を提示し、次に、すべてのタスクにわたるオンラインインタラクションを共同で最適化する。
実験の結果、Newtは一連の強力なベースラインよりもマルチタスク性能とデータ効率が良く、強力なオープンループ制御を示し、目に見えないタスクに迅速に適応できることがわかった。
環境、デモ、トレーニングと評価のためのコード、200以上のチェックポイントをリリースしています。
関連論文リスト
- Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。
シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文 参考訳(メタデータ) (2024-02-09T05:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。