論文の概要: Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.01452v1
- Date: Mon, 02 Mar 2026 05:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.686464
- Title: Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning
- Title(参考訳): サンプルではなくタスクのスケーリング:マルチタスクモデルに基づく強化学習によるヒューマノイド制御の習得
- Authors: Shaohuai Liu, Weirui Ye, Yilun Du, Le Xie,
- Abstract要約: 効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
- 参考スコア(独自算出の注目度): 49.82882141491629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing generalist robots capable of mastering diverse skills remains a central challenge in embodied AI. While recent progress emphasizes scaling model parameters and offline datasets, such approaches are limited in robotics, where learning requires active interaction. We argue that effective online learning should scale the \emph{number of tasks}, rather than the number of samples per task. This regime reveals a structural advantage of model-based reinforcement learning (MBRL). Because physical dynamics are invariant across tasks, a shared world model can aggregate multi-task experience to learn robust, task-agnostic representations. In contrast, model-free methods suffer from gradient interference when tasks demand conflicting actions in similar states. Task diversity therefore acts as a regularizer for MBRL, improving dynamics learning and sample efficiency. We instantiate this idea with \textbf{EfficientZero-Multitask (EZ-M)}, a sample-efficient multi-task MBRL algorithm for online learning. Evaluated on \textbf{HumanoidBench}, a challenging whole-body control benchmark, EZ-M achieves state-of-the-art performance with significantly higher sample efficiency than strong baselines, without extreme parameter scaling. These results establish task scaling as a critical axis for scalable robotic learning. The project website is available \href{https://yewr.github.io/ez_m/}{here}.
- Abstract(参考訳): 多様なスキルを習得できる汎用ロボットの開発は、AIの具体化における中心的な課題である。
最近の進歩では、モデルパラメータとオフラインデータセットのスケーリングが重視されているが、そのようなアプローチは、学習がアクティブなインタラクションを必要とするロボット工学において限られている。
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクのemph{number of task}をスケールすべきである、と我々は主張する。
この体制は、モデルベース強化学習(MBRL)の構造上の利点を明らかにする。
物理力学はタスク間で不変であるため、共有ワールドモデルはマルチタスク体験を集約して、堅牢でタスクに依存しない表現を学ぶことができる。
対照的に、モデルフリーな手法は、タスクが同様の状態の動作を要求するとき、勾配干渉に悩まされる。
したがってタスクの多様性は、MBRLの正規化要因として機能し、動的学習とサンプル効率を改善する。
我々はこのアイデアをオンライン学習のためのサンプル効率のよいマルチタスクMBRLアルゴリズムであるtextbf{EfficientZero-Multitask (EZ-M)}でインスタンス化する。
EZ-Mは、挑戦的な全身制御ベンチマークであるtextbf{HumanoidBench} に基づいて評価され、極端なパラメータスケーリングなしで、強いベースラインよりもはるかに高いサンプル効率で最先端のパフォーマンスを達成する。
これらの結果は、スケーラブルなロボット学習にとって重要な軸としてタスクスケーリングを確立している。
プロジェクトのWebサイトでは,‘href{https://yewr.github.io/ez_m/}{here}’が公開されている。
関連論文リスト
- One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning [32.13266149565313]
UniZeroのようなマルチタスクの世界モデルは、シングルタスク設定で優れている。
勾配の矛盾やモデル塑性の喪失はサンプルの効率を阻害することが多い。
本研究では,これらの課題を2つの相補的な視点 – 単一学習イテレーションと全体学習プロセス – から解決する。
論文 参考訳(メタデータ) (2025-09-09T17:27:53Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - LIMT: Language-Informed Multi-Task Visual World Models [6.128332310539627]
マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。
本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。
本結果は,世界モデルにおける言語駆動型タスク表現の利点と,より一般的なモデル自由パラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
論文 参考訳(メタデータ) (2024-07-18T12:40:58Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。
データ利用戦略を最適化するためにオフライン強化学習を利用する。
我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-20T07:36:43Z) - Exploring intra-task relations to improve meta-learning algorithms [1.223779595809275]
我々は,タスクの効果的なミニバッチによるトレーニング安定性向上のために,タスク関係の外部知識を活用することを目的としている。
ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-12-27T15:33:52Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Enhancing Robotic Manipulation: Harnessing the Power of Multi-Task
Reinforcement Learning and Single Life Reinforcement Learning in Meta-World [0.0]
この研究プロジェクトは、ロボットアームがメタワールド環境内で7つの異なるタスクを実行できるようにする。
トレーニングされたモデルは、シングルライフRLアルゴリズムの事前データのソースとして機能する。
アブレーション研究では、MT-QWALEが最終ゴール位置を隠した後でも、わずかに多くのステップでタスクを完了できることが示されている。
論文 参考訳(メタデータ) (2023-10-23T06:35:44Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。