論文の概要: TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2507.01823v1
- Date: Wed, 02 Jul 2025 15:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.36062
- Title: TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents
- Title(参考訳): TD-MPC-Opt: モデルに基づくマルチタスク強化学習エージェント
- Authors: Dmytro Kuzmenko, Nadiya Shvai,
- Abstract要約: モデルに基づく強化学習における知識伝達に対する新しいアプローチを提案する。
提案手法は, 高容量マルチタスクエージェントをコンパクトなモデルに効率よく蒸留する。
われわれのアプローチは、実際の展開制限に対処し、大世界モデルにおける知識表現に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 1.6574413179773757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach to knowledge transfer in model-based reinforcement learning, addressing the critical challenge of deploying large world models in resource-constrained environments. Our method efficiently distills a high-capacity multi-task agent (317M parameters) into a compact model (1M parameters) on the MT30 benchmark, significantly improving performance across diverse tasks. Our distilled model achieves a state-of-the-art normalized score of 28.45, surpassing the original 1M parameter model score of 18.93. This improvement demonstrates the ability of our distillation technique to capture and consolidate complex multi-task knowledge. We further optimize the distilled model through FP16 post-training quantization, reducing its size by $\sim$50\%. Our approach addresses practical deployment limitations and offers insights into knowledge representation in large world models, paving the way for more efficient and accessible multi-task reinforcement learning systems in robotics and other resource-constrained applications. Code available at https://github.com/dmytro-kuzmenko/td-mpc-opt.
- Abstract(参考訳): モデルに基づく強化学習における知識伝達の新たなアプローチを提案し,資源制約環境における大世界モデルの展開という重要な課題に対処する。
本手法はMT30ベンチマークにおいて,高容量マルチタスクエージェント(317Mパラメータ)をコンパクトモデル(1Mパラメータ)に効率よく蒸留し,タスク間の性能を著しく向上させる。
蒸留モデルでは, 従来の1Mパラメータモデルスコア18.93を上回り, 最先端の正規化スコア28.45を達成している。
この改良は, 複雑なマルチタスク知識を取り込み, 統合する蒸留技術の可能性を示すものである。
さらに,FP16後の量子化によって蒸留モデルを最適化し,そのサイズを$\sim$50\%削減する。
提案手法は,ロボット工学やその他のリソース制約のあるアプリケーションにおいて,より効率的かつアクセスしやすいマルチタスク強化学習システムを実現するため,大規模世界のモデルにおける知識表現に関する知見を提供する。
コードはhttps://github.com/dmytro-kuzmenko/td-mpc-opt.comで公開されている。
関連論文リスト
- Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。
Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文 参考訳(メタデータ) (2025-02-14T01:39:45Z) - Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning [1.6574413179773757]
モデルに基づく強化学習のための効率的な知識伝達手法を提案する。
高容量マルチタスクエージェントをコンパクトな1Mパラメータモデルに蒸留し,MT30ベンチマークで最先端性能を実現する。
トレーニング後の量子化をFP16に適用し、性能を維持しながらモデルサイズを50%削減する。
論文 参考訳(メタデータ) (2025-01-09T15:55:08Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。