Fugu-MT 論文翻訳(概要): Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning

論文の概要: Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning

arxiv url: http://arxiv.org/abs/2501.05329v1
Date: Thu, 09 Jan 2025 15:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.536232
Title: Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning
Title（参考訳）: 効率的なマルチタスク学習のためのモデルベース強化学習エージェントの知識伝達
Authors: Dmytro Kuzmenko, Nadiya Shvai,
Abstract要約: モデルに基づく強化学習のための効率的な知識伝達手法を提案する。高容量マルチタスクエージェントをコンパクトな1Mパラメータモデルに蒸留し,MT30ベンチマークで最先端性能を実現する。トレーニング後の量子化をFP16に適用し、性能を維持しながらモデルサイズを50%削減する。
参考スコア（独自算出の注目度）: 1.6574413179773757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose an efficient knowledge transfer approach for model-based reinforcement learning, addressing the challenge of deploying large world models in resource-constrained environments. Our method distills a high-capacity multi-task agent (317M parameters) into a compact 1M parameter model, achieving state-of-the-art performance on the MT30 benchmark with a normalized score of 28.45, a substantial improvement over the original 1M parameter model's score of 18.93. This demonstrates the ability of our distillation technique to consolidate complex multi-task knowledge effectively. Additionally, we apply FP16 post-training quantization, reducing the model size by 50% while maintaining performance. Our work bridges the gap between the power of large models and practical deployment constraints, offering a scalable solution for efficient and accessible multi-task reinforcement learning in robotics and other resource-limited domains.
Abstract（参考訳）: 本稿では,資源制約環境における大規模モデルの展開という課題に対処するため,モデルに基づく強化学習のための効率的な知識伝達手法を提案する。高容量マルチタスクエージェント(317Mパラメータ)をコンパクトな1Mパラメータモデルに蒸留し,正規化スコア28.45でMT30ベンチマークの最先端性能を実現し,元の1Mパラメータモデル18.93よりも大幅に改善した。このことは, 複雑なマルチタスク知識を効果的に融合させる蒸留技術の可能性を示すものである。さらに、FP16のポストトレーニング量子化を適用し、性能を維持しながらモデルサイズを50%削減する。我々の研究は、ロボット工学やその他のリソース制限のある領域における、効率的でアクセスしやすいマルチタスク強化学習のためのスケーラブルなソリューションを提供する、大規模モデルのパワーと実践的なデプロイメント制約のギャップを埋める。

関連論文リスト

TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents [1.6574413179773757]
モデルに基づく強化学習における知識伝達に対する新しいアプローチを提案する。提案手法は, 高容量マルチタスクエージェントをコンパクトなモデルに効率よく蒸留する。われわれのアプローチは、実際の展開制限に対処し、大世界モデルにおける知識表現に関する洞察を提供する。
論文参考訳（メタデータ） (2025-07-02T15:38:49Z)
Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer [56.898822179122476]
M3DTは、モデルのパラメータのスケーラビリティをさらに開放することで、タスクのスケーラビリティに対処する新しいM3DTフレームワークである。実験結果から,M3DTは,専門家の数を増やすことにより,一定のタスク数に対するモデル拡張としての性能を継続的に向上するだけでなく,タスクのスケーラビリティも向上し,性能が向上した160タスクにまで拡張できることが示唆された。
論文参考訳（メタデータ） (2025-05-30T09:08:52Z)
MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。 MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文参考訳（メタデータ） (2025-03-11T03:13:45Z)
Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。 Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文参考訳（メタデータ） (2025-02-14T01:39:45Z)
Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T17:41:23Z)
Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文参考訳（メタデータ） (2024-12-27T04:37:06Z)
MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task Learning [17.960185808572582]
MoDULAはマルチタスク学習における微調整とパラメータ効率の改善のためのパラダイムである。 MoDULA-ResはMoDULAパラダイム内の新しい手法であり、普遍的な専門家とタスク固有の専門家を結びつけることによって、モデルの一般的な能力を維持する。
論文参考訳（メタデータ） (2024-12-10T10:55:57Z)
On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文参考訳（メタデータ） (2024-06-17T03:07:41Z)
Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文参考訳（メタデータ） (2024-04-16T18:22:49Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文参考訳（メタデータ） (2023-10-07T08:55:54Z)
One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文参考訳（メタデータ） (2023-05-23T13:44:09Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。