論文の概要: Loss- and Reward-Weighting for Efficient Distributed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.12778v2
- Date: Sun, 18 Aug 2024 16:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:48:49.029169
- Title: Loss- and Reward-Weighting for Efficient Distributed Reinforcement Learning
- Title(参考訳): 効率的な分散強化学習のためのロス・アンド・リワード重み付け
- Authors: Martin Holen, Per-Arne Andersen, Kristian Muri Knausgård, Morten Goodwin,
- Abstract要約: 本稿では,Reinforcement Learning環境,すなわちReward-Weighted (R-Weighted) とLos-Weighted (L-Weighted) の2つの分散エージェント学習手法を提案する。
R/L重み付け法は、勾配の和や平均化など、複数のエージェントを訓練するための標準的な慣行を置き換える。
複数の環境でR重み付け手法が最先端の手法よりも優れていることを実証的に実証した。
- 参考スコア(独自算出の注目度): 4.199844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces two learning schemes for distributed agents in Reinforcement Learning (RL) environments, namely Reward-Weighted (R-Weighted) and Loss-Weighted (L-Weighted) gradient merger. The R/L weighted methods replace standard practices for training multiple agents, such as summing or averaging the gradients. The core of our methods is to scale the gradient of each actor based on how high the reward (for R-Weighted) or the loss (for L-Weighted) is compared to the other actors. During training, each agent operates in differently initialized versions of the same environment, which gives different gradients from different actors. In essence, the R-Weights and L-Weights of each agent inform the other agents of its potential, which again reports which environment should be prioritized for learning. This approach of distributed learning is possible because environments that yield higher rewards, or low losses, have more critical information than environments that yield lower rewards or higher losses. We empirically demonstrate that the R-Weighted methods work superior to the state-of-the-art in multiple RL environments.
- Abstract(参考訳): 本稿では,Reinforcement Learning (RL)環境における分散エージェントの学習手法として,Reward-Weighted (R-Weighted) とLos-Weighted (L-Weighted) の2つの手法を提案する。
R/L重み付け法は、勾配の和や平均化など、複数のエージェントを訓練するための標準的な慣行を置き換える。
我々の手法のコアは、報酬(R-Weighted)や損失(L-Weighted)が他のアクターと比較してどれだけ高いかに基づいて、各アクターの勾配をスケールすることである。
トレーニング中、各エージェントは同じ環境の異なる初期化バージョンで動作し、異なるアクターとは異なる勾配を与える。
基本的に、各エージェントのR-重みとL-重みは、他のエージェントにその潜在能力を知らせ、学習のためにどの環境を優先すべきかを報告します。
分散学習のアプローチは、より高い報酬を得る環境、または低い損失をもたらす環境は、低い報酬を得る環境やより高い損失をもたらす環境よりも重要な情報を持っているため可能である。
R-Weighted法は複数のRL環境において最先端の手法よりも優れていることを実証的に実証した。
関連論文リスト
- Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存している
メタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。
大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-05-01T10:43:55Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Noise Distribution Decomposition based Multi-Agent Distributional
Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。
本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。
また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T07:24:15Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文 参考訳(メタデータ) (2020-06-17T01:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。