論文の概要: Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2501.05329v1
- Date: Thu, 09 Jan 2025 15:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:09.110065
- Title: Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning
- Title(参考訳): 効率的なマルチタスク学習のためのモデルベース強化学習エージェントの知識伝達
- Authors: Dmytro Kuzmenko, Nadiya Shvai,
- Abstract要約: モデルに基づく強化学習のための効率的な知識伝達手法を提案する。
高容量マルチタスクエージェントをコンパクトな1Mパラメータモデルに蒸留し,MT30ベンチマークで最先端性能を実現する。
トレーニング後の量子化をFP16に適用し、性能を維持しながらモデルサイズを50%削減する。
- 参考スコア(独自算出の注目度): 1.6574413179773757
- License:
- Abstract: We propose an efficient knowledge transfer approach for model-based reinforcement learning, addressing the challenge of deploying large world models in resource-constrained environments. Our method distills a high-capacity multi-task agent (317M parameters) into a compact 1M parameter model, achieving state-of-the-art performance on the MT30 benchmark with a normalized score of 28.45, a substantial improvement over the original 1M parameter model's score of 18.93. This demonstrates the ability of our distillation technique to consolidate complex multi-task knowledge effectively. Additionally, we apply FP16 post-training quantization, reducing the model size by 50% while maintaining performance. Our work bridges the gap between the power of large models and practical deployment constraints, offering a scalable solution for efficient and accessible multi-task reinforcement learning in robotics and other resource-limited domains.
- Abstract(参考訳): 本稿では,資源制約環境における大規模モデルの展開という課題に対処するため,モデルに基づく強化学習のための効率的な知識伝達手法を提案する。
高容量マルチタスクエージェント(317Mパラメータ)をコンパクトな1Mパラメータモデルに蒸留し,正規化スコア28.45でMT30ベンチマークの最先端性能を実現し,元の1Mパラメータモデル18.93よりも大幅に改善した。
このことは, 複雑なマルチタスク知識を効果的に融合させる蒸留技術の可能性を示すものである。
さらに、FP16のポストトレーニング量子化を適用し、性能を維持しながらモデルサイズを50%削減する。
我々の研究は、ロボット工学やその他のリソース制限のある領域における、効率的でアクセスしやすいマルチタスク強化学習のためのスケーラブルなソリューションを提供する、大規模モデルのパワーと実践的なデプロイメント制約のギャップを埋める。
関連論文リスト
- Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。
Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文 参考訳(メタデータ) (2025-02-14T01:39:45Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。