Fugu-MT 論文翻訳(概要): Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation

論文の概要: Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation

arxiv url: http://arxiv.org/abs/2104.01655v1
Date: Sun, 4 Apr 2021 17:56:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-06 14:29:06.507746
Title: Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation
Title（参考訳）: アクタ・リアナー蒸留を用いた強化学習における効率的なトランスフォーマー
Authors: Emilio Parisotto, Ruslan Salakhutdinov
Abstract要約: 「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。 Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
参考スコア（独自算出の注目度）: 91.05073136215886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many real-world applications such as robotics provide hard constraints on power and compute that limit the viable model complexity of Reinforcement Learning (RL) agents. Similarly, in many distributed RL settings, acting is done on un-accelerated hardware such as CPUs, which likewise restricts model size to prevent intractable experiment run times. These "actor-latency" constrained settings present a major obstruction to the scaling up of model complexity that has recently been extremely successful in supervised learning. To be able to utilize large model capacity while still operating within the limits imposed by the system during acting, we develop an "Actor-Learner Distillation" (ALD) procedure that leverages a continual form of distillation that transfers learning progress from a large capacity learner model to a small capacity actor model. As a case study, we develop this procedure in the context of partially-observable environments, where transformer models have had large improvements over LSTMs recently, at the cost of significantly higher computational complexity. With transformer models as the learner and LSTMs as the actor, we demonstrate in several challenging memory environments that using Actor-Learner Distillation recovers the clear sample-efficiency gains of the transformer learner model while maintaining the fast inference and reduced total training time of the LSTM actor model.
Abstract（参考訳）: ロボット工学のような現実世界の多くのアプリケーションは、強化学習(RL)エージェントの実行可能なモデルの複雑さを制限するパワーと計算に厳しい制約を与えている。同様に、多くの分散RL設定では、CPUのようなアクセラレーションのないハードウェア上でアクションが行われ、同様にモデルサイズを制限して、難解な実験の実行時間を防ぐ。これらの"アクタレイテンシ"制約設定は、最近教師付き学習で非常に成功したモデル複雑性のスケールアップに対する大きな障害となる。動作中にシステムによって課される限界内で動作しながら大きなモデル容量を活用できるようにするために,大容量学習者モデルから小容量アクタモデルに学習進捗を伝達する連続型蒸留を利用する「アクタ・リアナー蒸留」(ald)手順を開発した。そこで本研究では,近年のlstmsよりもトランスフォーマーモデルが大幅に改善され,計算複雑性が大幅に向上した部分観測環境において,この手法を開発した。トランスフォーマーモデルを学習者として, lstmsをアクタとして使用することにより, アクタ-リアナー蒸留を用いることで, 高速推論を維持しつつトランスフォーマー学習者の明確なサンプル効率を回復し, lstmアクタモデルの総トレーニング時間を短縮できることを示す。

関連論文リスト

Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。 VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-28T02:53:48Z)
Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-09T19:13:03Z)
Bridging the Resource Gap: Deploying Advanced Imitation Learning Models onto Affordable Embedded Platforms [13.488752211167533]
先進的な模倣学習アルゴリズムのエッジデバイスへの移行を容易にするパイプラインを提案する。提案するパイプラインの効率性を示すため,大規模な模倣学習モデルがサーバ上で訓練され,エッジデバイス上に展開され,様々な操作処理が完了する。
論文参考訳（メタデータ） (2024-11-18T09:28:11Z)
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-14T10:36:19Z)
Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文参考訳（メタデータ） (2024-10-15T14:41:44Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Learn to Teach: Sample-Efficient Privileged Learning for Humanoid Locomotion over Diverse Terrains [6.967583364984562]
本研究は,教師と学生の政策学習を統合したワンステージ・トレーニング・フレームワーク,Learn to Teach (L2T)を提案する。提案手法は, サンプルをリサイクルし, 共有力学を用いて学習軌跡を同期させ, サンプルの複雑さと学習時間を著しく低減する。深度推定モジュールを使わずに12以上の困難な地形上で, ゼロショットのシミュレートとロバストな性能を実証し, シミュレーションとハードウェアテストによりRL変種(L2T-RL)を検証した。
論文参考訳（メタデータ） (2024-02-09T21:16:43Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
RLFlow: Optimising Neural Network Subgraph Transformation with World Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-03T11:52:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。