論文の概要: Low-Precision Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.13565v1
- Date: Fri, 26 Feb 2021 16:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:48:21.277773
- Title: Low-Precision Reinforcement Learning
- Title(参考訳): 低精度強化学習
- Authors: Johan Bjorck, Xiangyu Chen, Christopher De Sa, Carla P. Gomes, Kilian
Q. Weinberger
- Abstract要約: 教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
- 参考スコア(独自算出の注目度): 63.930246183244705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-precision training has become a popular approach to reduce computation
time, memory footprint, and energy consumption in supervised learning. In
contrast, this promising approach has not enjoyed similarly widespread adoption
within the reinforcement learning (RL) community, in part because RL agents can
be notoriously hard to train -- even in full precision. In this paper we
consider continuous control with the state-of-the-art SAC agent and demonstrate
that a na\"ive adaptation of low-precision methods from supervised learning
fails. We propose a set of six modifications, all straightforward to implement,
that leaves the underlying agent unchanged but improves its numerical stability
dramatically. The resulting modified SAC agent has lower memory and compute
requirements while matching full-precision rewards, thus demonstrating the
feasibility of low-precision RL.
- Abstract(参考訳): 教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
対照的に、この有望なアプローチは強化学習(RL)コミュニティ内でも同様に広く採用されているわけではない。
本稿では,最先端のsacエージェントとの連続制御について検討し,教師付き学習による低精度手法のna\"ive適応が失敗することを実証する。
提案する6つの修正は, すべて実装が容易であり, 基礎となるエージェントを変更せず, 数値安定性を劇的に向上させる。
得られた修正されたSACエージェントは、フル精度の報酬を一致させながら、低メモリおよび計算要件を有し、低精度RLの実現性を示す。
関連論文リスト
- Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。
IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。
IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文 参考訳(メタデータ) (2025-02-11T13:34:09Z) - Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。
本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。
有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-01-26T03:22:22Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization [1.6749379740049926]
そこで我々は,F-CMA,F-Controlled Mini-batchアルゴリズムを導入し,各エポックあたりの損失低減を確保するために,十分な減少条件とライン探索手順を備えたランダムリシャッフル法を提案する。
テストでは、トレーニング時間全体の68%の削減、エポック毎の効率の最大20%向上、モデル精度の最大5%向上など、大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-11-24T11:46:47Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。