論文の概要: Directly Attention Loss Adjusted Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2311.14390v1
- Date: Fri, 24 Nov 2023 10:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:23:54.550751
- Title: Directly Attention Loss Adjusted Prioritized Experience Replay
- Title(参考訳): 優先体験の再生を調整した直接注意喪失
- Authors: Zhuoying Chen, Huiping Li, Zhaoxu Wang
- Abstract要約: 優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
- 参考スコア(独自算出の注目度): 0.07366405857677226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prioritized Experience Replay (PER) enables the model to learn more about
relatively important samples by artificially changing their accessed
frequencies. However, this non-uniform sampling method shifts the state-action
distribution that is originally used to estimate Q-value functions, which
brings about the estimation deviation. In this article, an novel off policy
reinforcement learning training framework called Directly Attention Loss
Adjusted Prioritized Experience Replay (DALAP) is proposed, which can directly
quantify the changed extent of the shifted distribution through Parallel
Self-Attention network, so as to accurately compensate the error. In addition,
a Priority-Encouragement mechanism is designed simultaneously to optimize the
sample screening criterion, and further improve the training efficiency. In
order to verify the effectiveness and generality of DALAP, we integrate it with
the value-function based, the policy-gradient based and multi-agent
reinforcement learning algorithm, respectively. The multiple groups of
comparative experiments show that DALAP has the significant advantages of both
improving the convergence rate and reducing the training variance.
- Abstract(参考訳): 優先度付き体験再生(PER)では、アクセス頻度を人工的に変更することで、比較的重要なサンプルについてより深く学習することができる。
しかし、この非一様サンプリング法は、もともとq値関数を推定するために使われる状態-作用分布をシフトさせ、推定偏差をもたらす。
本稿では,DALAP(Directly Attention Loss Adjusted Prioritized Experience Replay)と呼ばれる政策強化学習トレーニングフレームワークを提案する。
さらに、サンプルスクリーニング基準を最適化し、トレーニング効率をさらに向上するため、優先環境改善機構を同時に設計する。
DALAPの有効性と汎用性を検証するために、我々はそれぞれ値関数ベース、ポリシー勾配ベース、マルチエージェント強化学習アルゴリズムと統合する。
比較実験の複数のグループは、DALAPが収束率の向上とトレーニングのばらつきの低減という大きな利点を持っていることを示している。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Attention Loss Adjusted Prioritized Experience Replay [0.0]
優先再生体験(PER)は、ニューラルネットワークのトレーニング率を改善するために、より知識量の多い経験サンプルを選択することによって、深層強化学習の技術的手段である。
PERで使用される非一様サンプリングは、状態-作用空間分布を必然的にシフトさせ、Q値関数の推定誤差をもたらす。
改良された自己認識ネットワークとダブルサンプリング機構を統合したALAP体験再生アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:49:32Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。