Fugu-MT 論文翻訳(概要): Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error

論文の概要: Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error

arxiv url: http://arxiv.org/abs/2212.13175v1
Date: Mon, 26 Dec 2022 14:32:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 13:49:41.796053
Title: Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error
Title（参考訳）: 時間差誤差重み付き損失関数を用いたオフポリシー強化学習
Authors: Bumgeun Park, Taeyoung Kim, Woohyeon Moon, Luiz Felipe Vecchietti and Dongsoo Har
Abstract要約: 政治外の深層学習(RL)によるトレーニングエージェントは、学習に使用される過去の経験を記憶する、リプレイメモリと呼ばれる大きなメモリを必要とする。損失関数を計算するとき、非政治アルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。本稿では,学習段階における損失関数を計算する際に,経験ごとに重み付け係数を導入する手法を提案する。
参考スコア（独自算出の注目度）: 2.255666468574186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training agents via off-policy deep reinforcement learning (RL) requires a large memory, named replay memory, that stores past experiences used for learning. These experiences are sampled, uniformly or non-uniformly, to create the batches used for training. When calculating the loss function, off-policy algorithms assume that all samples are of the same importance. In this paper, we hypothesize that training can be enhanced by assigning different importance for each experience based on their temporal-difference (TD) error directly in the training objective. We propose a novel method that introduces a weighting factor for each experience when calculating the loss function at the learning stage. In addition to improving convergence speed when used with uniform sampling, the method can be combined with prioritization methods for non-uniform sampling. Combining the proposed method with prioritization methods improves sampling efficiency while increasing the performance of TD-based off-policy RL algorithms. The effectiveness of the proposed method is demonstrated by experiments in six environments of the OpenAI Gym suite. The experimental results demonstrate that the proposed method achieves a 33%~76% reduction of convergence speed in three environments and an 11% increase in returns and a 3%~10% increase in success rate for other three environments.
Abstract（参考訳）: オフポリシー・ディープ強化学習(rl)によるトレーニングエージェントは、学習に使用される過去の経験を記憶するリプレイメモリと呼ばれる大きなメモリを必要とする。これらの経験は、トレーニングに使用されるバッチを作成するために、一様または非一様にサンプリングされる。損失関数を計算するとき、オフポリシーアルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。本稿では,td(temporal-difference)エラーに基づいて,各体験に異なる重要度を付与することで,トレーニングを向上できると仮定する。学習段階における損失関数を計算する際に,各経験に重み付け係数を導入する新しい手法を提案する。均一サンプリングを用いた場合の収束速度の向上に加えて, 非一様サンプリングの優先順位付け手法と組み合わせることができる。提案手法と優先順位付け手法を組み合わせることでサンプリング効率が向上し,TDに基づくオフポリシーRLアルゴリズムの性能が向上する。提案手法の有効性は,OpenAI Gymスイートの6つの環境での実験によって実証された。実験の結果,提案手法は3つの環境における収束速度を33%～76%削減し,リターンを11%向上させ,他の3つの環境での成功率を3%～10%向上させた。

関連論文リスト

A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文参考訳（メタデータ） (2025-06-08T18:43:31Z)
Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文参考訳（メタデータ） (2024-10-02T11:33:13Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML [0.0]
評価ニューラルネットワーク(ENN)は、ターゲットネットワークの性能を予測するために、深層強化学習を通じて訓練される。 ENNは、バックプロパゲーション中に追加評価機能として機能する。
論文参考訳（メタデータ） (2024-06-15T08:37:51Z)
Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文参考訳（メタデータ） (2024-05-29T15:44:51Z)
CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。 CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文参考訳（メタデータ） (2024-04-22T11:52:40Z)
Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文参考訳（メタデータ） (2023-10-03T06:49:57Z)
Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文参考訳（メタデータ） (2023-05-04T15:53:00Z)
A Data-Centric Approach for Improving Adversarial Training Through the Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。 SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文参考訳（メタデータ） (2023-01-25T08:13:50Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文参考訳（メタデータ） (2020-06-23T17:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。