論文の概要: Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation
- arxiv url: http://arxiv.org/abs/2104.01655v1
- Date: Sun, 4 Apr 2021 17:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:29:06.507746
- Title: Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation
- Title(参考訳): アクタ・リアナー蒸留を用いた強化学習における効率的なトランスフォーマー
- Authors: Emilio Parisotto, Ruslan Salakhutdinov
- Abstract要約: 「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
- 参考スコア(独自算出の注目度): 91.05073136215886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications such as robotics provide hard constraints on
power and compute that limit the viable model complexity of Reinforcement
Learning (RL) agents. Similarly, in many distributed RL settings, acting is
done on un-accelerated hardware such as CPUs, which likewise restricts model
size to prevent intractable experiment run times. These "actor-latency"
constrained settings present a major obstruction to the scaling up of model
complexity that has recently been extremely successful in supervised learning.
To be able to utilize large model capacity while still operating within the
limits imposed by the system during acting, we develop an "Actor-Learner
Distillation" (ALD) procedure that leverages a continual form of distillation
that transfers learning progress from a large capacity learner model to a small
capacity actor model. As a case study, we develop this procedure in the context
of partially-observable environments, where transformer models have had large
improvements over LSTMs recently, at the cost of significantly higher
computational complexity. With transformer models as the learner and LSTMs as
the actor, we demonstrate in several challenging memory environments that using
Actor-Learner Distillation recovers the clear sample-efficiency gains of the
transformer learner model while maintaining the fast inference and reduced
total training time of the LSTM actor model.
- Abstract(参考訳): ロボット工学のような現実世界の多くのアプリケーションは、強化学習(RL)エージェントの実行可能なモデルの複雑さを制限するパワーと計算に厳しい制約を与えている。
同様に、多くの分散RL設定では、CPUのようなアクセラレーションのないハードウェア上でアクションが行われ、同様にモデルサイズを制限して、難解な実験の実行時間を防ぐ。
これらの"アクタレイテンシ"制約設定は、最近教師付き学習で非常に成功したモデル複雑性のスケールアップに対する大きな障害となる。
動作中にシステムによって課される限界内で動作しながら大きなモデル容量を活用できるようにするために,大容量学習者モデルから小容量アクタモデルに学習進捗を伝達する連続型蒸留を利用する「アクタ・リアナー蒸留」(ald)手順を開発した。
そこで本研究では,近年のlstmsよりもトランスフォーマーモデルが大幅に改善され,計算複雑性が大幅に向上した部分観測環境において,この手法を開発した。
トランスフォーマーモデルを学習者として, lstmsをアクタとして使用することにより, アクタ-リアナー蒸留を用いることで, 高速推論を維持しつつトランスフォーマー学習者の明確なサンプル効率を回復し, lstmアクタモデルの総トレーニング時間を短縮できることを示す。
関連論文リスト
- Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。
提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文 参考訳(メタデータ) (2024-10-15T14:41:44Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。