論文の概要: Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation
- arxiv url: http://arxiv.org/abs/2104.01655v1
- Date: Sun, 4 Apr 2021 17:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:29:06.507746
- Title: Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation
- Title(参考訳): アクタ・リアナー蒸留を用いた強化学習における効率的なトランスフォーマー
- Authors: Emilio Parisotto, Ruslan Salakhutdinov
- Abstract要約: 「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
- 参考スコア(独自算出の注目度): 91.05073136215886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications such as robotics provide hard constraints on
power and compute that limit the viable model complexity of Reinforcement
Learning (RL) agents. Similarly, in many distributed RL settings, acting is
done on un-accelerated hardware such as CPUs, which likewise restricts model
size to prevent intractable experiment run times. These "actor-latency"
constrained settings present a major obstruction to the scaling up of model
complexity that has recently been extremely successful in supervised learning.
To be able to utilize large model capacity while still operating within the
limits imposed by the system during acting, we develop an "Actor-Learner
Distillation" (ALD) procedure that leverages a continual form of distillation
that transfers learning progress from a large capacity learner model to a small
capacity actor model. As a case study, we develop this procedure in the context
of partially-observable environments, where transformer models have had large
improvements over LSTMs recently, at the cost of significantly higher
computational complexity. With transformer models as the learner and LSTMs as
the actor, we demonstrate in several challenging memory environments that using
Actor-Learner Distillation recovers the clear sample-efficiency gains of the
transformer learner model while maintaining the fast inference and reduced
total training time of the LSTM actor model.
- Abstract(参考訳): ロボット工学のような現実世界の多くのアプリケーションは、強化学習(RL)エージェントの実行可能なモデルの複雑さを制限するパワーと計算に厳しい制約を与えている。
同様に、多くの分散RL設定では、CPUのようなアクセラレーションのないハードウェア上でアクションが行われ、同様にモデルサイズを制限して、難解な実験の実行時間を防ぐ。
これらの"アクタレイテンシ"制約設定は、最近教師付き学習で非常に成功したモデル複雑性のスケールアップに対する大きな障害となる。
動作中にシステムによって課される限界内で動作しながら大きなモデル容量を活用できるようにするために,大容量学習者モデルから小容量アクタモデルに学習進捗を伝達する連続型蒸留を利用する「アクタ・リアナー蒸留」(ald)手順を開発した。
そこで本研究では,近年のlstmsよりもトランスフォーマーモデルが大幅に改善され,計算複雑性が大幅に向上した部分観測環境において,この手法を開発した。
トランスフォーマーモデルを学習者として, lstmsをアクタとして使用することにより, アクタ-リアナー蒸留を用いることで, 高速推論を維持しつつトランスフォーマー学習者の明確なサンプル効率を回復し, lstmアクタモデルの総トレーニング時間を短縮できることを示す。
関連論文リスト
- One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。