論文の概要: One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning
- arxiv url: http://arxiv.org/abs/2509.07945v1
- Date: Tue, 09 Sep 2025 17:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.423582
- Title: One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning
- Title(参考訳): 全タスクの1つのモデル:マルチタスク計画における効率的な世界モデルを活用する
- Authors: Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li,
- Abstract要約: UniZeroのようなマルチタスクの世界モデルは、シングルタスク設定で優れている。
勾配の衝突とモデル可塑性の喪失は、しばしばサンプルと計算効率を制限します。
オンラインLoRAベースのテキスト力学的パラメータスケーリング(DPS)戦略を導入する。
本手法は,シングルタスク環境のインタラクションステップの80%しか必要とせず,競争性能が向上する。
- 参考スコア(独自算出の注目度): 32.13266149565313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In heterogeneous multi-task learning, tasks not only exhibit diverse observation and action spaces but also vary substantially in intrinsic difficulty. While conventional multi-task world models like UniZero excel in single-task settings, we find that when handling large-scale heterogeneous environments, gradient conflicts and the loss of model plasticity often constrain their sample and computational efficiency. In this work, we address these challenges from two perspectives: the single learning iteration and the overall learning process. First, we investigate the impact of key design spaces on extending UniZero to multi-task planning. We find that a Mixture-of-Experts (MoE) architecture provides the most substantial performance gains by mitigating gradient conflicts, leading to our proposed model, \textit{ScaleZero}. Second, to dynamically balance the computational load across the learning process, we introduce an online, LoRA-based \textit{dynamic parameter scaling} (DPS) strategy. This strategy progressively integrates LoRA adapters in response to task-specific progress, enabling adaptive knowledge retention and parameter expansion. Empirical evaluations on standard benchmarks such as Atari, DMControl (DMC), and Jericho demonstrate that ScaleZero, relying exclusively on online reinforcement learning with one model, attains performance on par with specialized single-task baselines. Furthermore, when augmented with our dynamic parameter scaling strategy, our method achieves competitive performance while requiring only 80\% of the single-task environment interaction steps. These findings underscore the potential of ScaleZero for effective large-scale multi-task learning. Our code is available at \textcolor{magenta}{https://github.com/opendilab/LightZero}.
- Abstract(参考訳): 不均質なマルチタスク学習では、タスクは様々な観察や行動空間を示すだけでなく、本質的な難易度にも大きく異なる。
UniZeroのような従来のマルチタスクの世界モデルはシングルタスク環境では優れているが、大規模な異種環境を扱う場合、勾配の衝突やモデルの可塑性の喪失がサンプルや計算効率を制約することも多い。
本研究では,これらの課題を,単一学習イテレーションと全体学習プロセスという2つの視点から解決する。
まず,UniZeroのマルチタスク計画への拡張における鍵設計空間の影響について検討する。
我々は,Mixture-of-Experts (MoE)アーキテクチャが勾配の競合を緩和することで,最も実質的なパフォーマンス向上をもたらすことを発見し,提案したモデルである『textit{ScaleZero}』に導いた。
第二に、学習プロセス全体での計算負荷の動的バランスをとるために、オンラインのLoRAベースの \textit{dynamic parameters scaling} (DPS) 戦略を導入する。
この戦略は、タスク固有の進歩に対応するためにLoRAアダプタを段階的に統合し、適応的な知識保持とパラメータ拡張を可能にする。
Atari、DMControl(DMC)、Jerrichoなどの標準ベンチマークに関する実証的な評価は、ScaleZeroがオンライン強化学習に1つのモデルでのみ依存しており、特別な単一タスクベースラインと同等のパフォーマンスを達成していることを示している。
さらに,我々の動的パラメータスケーリング戦略を拡張した場合,本手法は単一タスク環境間相互作用の80%しか必要とせず,競争性能が向上する。
これらの知見は, 大規模マルチタスク学習におけるScaleZeroの可能性を明らかにするものである。
私たちのコードは、textcolor{magenta}{https://github.com/opendilab/LightZero}で利用可能です。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。