論文の概要: Low-Precision Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.13565v1
- Date: Fri, 26 Feb 2021 16:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:48:21.277773
- Title: Low-Precision Reinforcement Learning
- Title(参考訳): 低精度強化学習
- Authors: Johan Bjorck, Xiangyu Chen, Christopher De Sa, Carla P. Gomes, Kilian
Q. Weinberger
- Abstract要約: 教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
- 参考スコア(独自算出の注目度): 63.930246183244705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-precision training has become a popular approach to reduce computation
time, memory footprint, and energy consumption in supervised learning. In
contrast, this promising approach has not enjoyed similarly widespread adoption
within the reinforcement learning (RL) community, in part because RL agents can
be notoriously hard to train -- even in full precision. In this paper we
consider continuous control with the state-of-the-art SAC agent and demonstrate
that a na\"ive adaptation of low-precision methods from supervised learning
fails. We propose a set of six modifications, all straightforward to implement,
that leaves the underlying agent unchanged but improves its numerical stability
dramatically. The resulting modified SAC agent has lower memory and compute
requirements while matching full-precision rewards, thus demonstrating the
feasibility of low-precision RL.
- Abstract(参考訳): 教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
対照的に、この有望なアプローチは強化学習(RL)コミュニティ内でも同様に広く採用されているわけではない。
本稿では,最先端のsacエージェントとの連続制御について検討し,教師付き学習による低精度手法のna\"ive適応が失敗することを実証する。
提案する6つの修正は, すべて実装が容易であり, 基礎となるエージェントを変更せず, 数値安定性を劇的に向上させる。
得られた修正されたSACエージェントは、フル精度の報酬を一致させながら、低メモリおよび計算要件を有し、低精度RLの実現性を示す。
関連論文リスト
- Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization [1.6749379740049926]
そこで我々は,F-CMA,F-Controlled Mini-batchアルゴリズムを導入し,各エポックあたりの損失低減を確保するために,十分な減少条件とライン探索手順を備えたランダムリシャッフル法を提案する。
テストでは、トレーニング時間全体の68%の削減、エポック毎の効率の最大20%向上、モデル精度の最大5%向上など、大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-11-24T11:46:47Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Criticality Leveraged Adversarial Training (CLAT) for Boosted Performance via Parameter Efficiency [15.211462468655329]
CLATは、パラメータ効率を敵のトレーニングプロセスに導入し、クリーンな精度と敵の堅牢性の両方を改善した。
既存の対数訓練法に応用でき、トレーニング可能なパラメータの数を約95%削減できる。
論文 参考訳(メタデータ) (2024-08-19T17:58:03Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。