Fugu-MT 論文翻訳(概要): Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning

論文の概要: Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning

arxiv url: http://arxiv.org/abs/2312.07025v1
Date: Tue, 12 Dec 2023 07:24:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 17:13:10.623465
Title: Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning
Title（参考訳）: マルチエージェント分布強化学習に基づく雑音分布分解
Authors: Wei Geng, Baidi Xiao, Rongpeng Li, Ning Wei, Dong Wang, and Zhifeng Zhao
Abstract要約: マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
参考スコア（独自算出の注目度）: 15.82785057592436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generally, Reinforcement Learning (RL) agent updates its policy by repetitively interacting with the environment, contingent on the received rewards to observed states and undertaken actions. However, the environmental disturbance, commonly leading to noisy observations (e.g., rewards and states), could significantly shape the performance of agent. Furthermore, the learning performance of Multi-Agent Reinforcement Learning (MARL) is more susceptible to noise due to the interference among intelligent agents. Therefore, it becomes imperative to revolutionize the design of MARL, so as to capably ameliorate the annoying impact of noisy rewards. In this paper, we propose a novel decomposition-based multi-agent distributional RL method by approximating the globally shared noisy reward by a Gaussian mixture model (GMM) and decomposing it into the combination of individual distributional local rewards, with which each agent can be updated locally through distributional RL. Moreover, a diffusion model (DM) is leveraged for reward generation in order to mitigate the issue of costly interaction expenditure for learning distributions. Furthermore, the optimality of the distribution decomposition is theoretically validated, while the design of loss function is carefully calibrated to avoid the decomposition ambiguity. We also verify the effectiveness of the proposed method through extensive simulation experiments with noisy rewards. Besides, different risk-sensitive policies are evaluated in order to demonstrate the superiority of distributional RL in different MARL tasks.
Abstract（参考訳）: 一般に、強化学習(Reinforcement Learning, RL)エージェントは、環境と繰り返し対話し、受信した報酬を観察された状態に通知し、行動を実行することでポリシーを更新する。しかし、一般的にノイズの多い観測(例えば報酬や状態)につながる環境障害は、エージェントのパフォーマンスを著しく形作ることができた。さらに,MARL(Multi-Agent Reinforcement Learning)の学習性能は,知的エージェント間の干渉によるノイズの影響を受けやすい。したがって、MARLの設計に革命を起こすことが必須となり、ノイズ報酬の迷惑な影響を改善できる。本稿では,gaussian mixture model (gmm) による大域的に共有される雑音の報酬を近似し,各エージェントを分散rlにより局所的に更新可能な個別分布的報酬の組み合わせに分解することにより,新しい分解型マルチエージェント分散rl法を提案する。さらに、拡散モデル(DM)を報酬生成に利用して、学習分布に対する費用対効果の問題を緩和する。さらに、分布分解の最適性は理論的に検証され、損失関数の設計は分解の曖昧さを避けるために慎重に調整される。また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。さらに、異なるMARLタスクにおける分布RLの優位性を示すために、異なるリスク感受性ポリシーを評価する。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Action Gaps and Advantages in Continuous-Time Distributional Reinforcement Learning [30.64409258999151]
行動条件付き回帰分布は、決定頻度が増加するにつれて、基本方針の戻り分布に崩壊することを示す。また、優位性の確率的一般化として優越性を導入する。オプショントレーディング領域におけるシミュレーションにより、優良性分布の適切なモデリングにより、高い決定周波数での制御性能が向上することが検証された。
論文参考訳（メタデータ） (2024-10-14T19:18:38Z)
ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。 MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文参考訳（メタデータ） (2024-10-02T18:56:10Z)
MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存しているメタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-05-01T10:43:55Z)
Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文参考訳（メタデータ） (2024-02-15T20:20:35Z)
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文参考訳（メタデータ） (2023-11-03T18:56:48Z)
Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。この分布は有限個の確率変数で近似できることを示す。近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-23T20:27:40Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Global Distance-distributions Separation for Unsupervised Person Re-identification [93.39253443415392]
既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。本研究では,2つの分布に対する大域的距離分布分離の制約を導入し,大域的視点から正と負のサンプルを明確に分離することを奨励する。本研究では,本手法がベースラインを大幅に改善し,最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2020-06-01T07:05:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。