Fugu-MT 論文翻訳(概要): Loss- and Reward-Weighting for Efficient Distributed Reinforcement Learning

論文の概要: Loss- and Reward-Weighting for Efficient Distributed Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.12778v2
Date: Sun, 18 Aug 2024 16:30:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 04:48:49.029169
Title: Loss- and Reward-Weighting for Efficient Distributed Reinforcement Learning
Title（参考訳）: 効率的な分散強化学習のためのロス・アンド・リワード重み付け
Authors: Martin Holen, Per-Arne Andersen, Kristian Muri Knausgård, Morten Goodwin,
Abstract要約: 本稿では,Reinforcement Learning環境,すなわちReward-Weighted (R-Weighted) とLos-Weighted (L-Weighted) の2つの分散エージェント学習手法を提案する。 R/L重み付け法は、勾配の和や平均化など、複数のエージェントを訓練するための標準的な慣行を置き換える。複数の環境でR重み付け手法が最先端の手法よりも優れていることを実証的に実証した。
参考スコア（独自算出の注目度）: 4.199844472131922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces two learning schemes for distributed agents in Reinforcement Learning (RL) environments, namely Reward-Weighted (R-Weighted) and Loss-Weighted (L-Weighted) gradient merger. The R/L weighted methods replace standard practices for training multiple agents, such as summing or averaging the gradients. The core of our methods is to scale the gradient of each actor based on how high the reward (for R-Weighted) or the loss (for L-Weighted) is compared to the other actors. During training, each agent operates in differently initialized versions of the same environment, which gives different gradients from different actors. In essence, the R-Weights and L-Weights of each agent inform the other agents of its potential, which again reports which environment should be prioritized for learning. This approach of distributed learning is possible because environments that yield higher rewards, or low losses, have more critical information than environments that yield lower rewards or higher losses. We empirically demonstrate that the R-Weighted methods work superior to the state-of-the-art in multiple RL environments.
Abstract（参考訳）: 本稿では,Reinforcement Learning (RL)環境における分散エージェントの学習手法として,Reward-Weighted (R-Weighted) とLos-Weighted (L-Weighted) の2つの手法を提案する。 R/L重み付け法は、勾配の和や平均化など、複数のエージェントを訓練するための標準的な慣行を置き換える。我々の手法のコアは、報酬(R-Weighted)や損失(L-Weighted)が他のアクターと比較してどれだけ高いかに基づいて、各アクターの勾配をスケールすることである。トレーニング中、各エージェントは同じ環境の異なる初期化バージョンで動作し、異なるアクターとは異なる勾配を与える。基本的に、各エージェントのR-重みとL-重みは、他のエージェントにその潜在能力を知らせ、学習のためにどの環境を優先すべきかを報告します。分散学習のアプローチは、より高い報酬を得る環境、または低い損失をもたらす環境は、低い報酬を得る環境やより高い損失をもたらす環境よりも重要な情報を持っているため可能である。 R-Weighted法は複数のRL環境において最先端の手法よりも優れていることを実証的に実証した。

関連論文リスト

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。 RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文参考訳（メタデータ） (2025-05-23T06:01:21Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文参考訳（メタデータ） (2024-05-03T12:21:43Z)
MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存しているメタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-05-01T10:43:55Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文参考訳（メタデータ） (2023-12-12T07:24:15Z)
Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文参考訳（メタデータ） (2022-09-20T17:57:33Z)
Learning to Re-weight Examples with Optimal Transport for Imbalanced Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文参考訳（メタデータ） (2022-08-05T01:23:54Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Dynamic Multi-Scale Loss Optimization for Object Detection [14.256807110937622]
マルチスケール検出器訓練の客観的不均衡について検討する。本稿では, 適応可変重み付け (AVW) を提案する。トレーニング中に重み付け方式を確率的に決定する新しい強化学習最適化(RLO)を開発した。
論文参考訳（メタデータ） (2021-08-09T13:12:41Z)
Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文参考訳（メタデータ） (2020-06-17T01:17:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。