論文の概要: Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition
- arxiv url: http://arxiv.org/abs/2302.01180v1
- Date: Thu, 2 Feb 2023 16:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:26:39.520677
- Title: Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition
- Title(参考訳): 排除による多様性:価値分解による強化学習のためのニッチ同定
- Authors: Peter Sunehag, Alexander Sasha Vezhnevets, Edgar Du\'e\~nez-Guzm\'an,
Igor Mordach, Joel Z. Leibo
- Abstract要約: 本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
- 参考スコア(独自算出の注目度): 63.67574523750839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many environments contain numerous available niches of variable value, each
associated with a different local optimum in the space of behaviors (policy
space). In such situations it is often difficult to design a learning process
capable of evading distraction by poor local optima long enough to stumble upon
the best available niche. In this work we propose a generic reinforcement
learning (RL) algorithm that performs better than baseline deep Q-learning
algorithms in such environments with multiple variably-valued niches. The
algorithm we propose consists of two parts: an agent architecture and a
learning rule. The agent architecture contains multiple sub-policies. The
learning rule is inspired by fitness sharing in evolutionary computation and
applied in reinforcement learning using Value-Decomposition-Networks in a novel
manner for a single-agent's internal population. It can concretely be
understood as adding an extra loss term where one policy's experience is also
used to update all the other policies in a manner that decreases their value
estimates for the visited states. In particular, when one sub-policy visits a
particular state frequently this decreases the value predicted for other
sub-policies for going to that state. Further, we introduce an artificial
chemistry inspired platform where it is easy to create tasks with multiple
rewarding strategies utilizing different resources (i.e. multiple niches). We
show that agents trained this way can escape poor-but-attractive local optima
to instead converge to harder-to-discover higher value strategies in both the
artificial chemistry environments and in simpler illustrative environments.
- Abstract(参考訳): 多くの環境は可変値の多くの利用可能なニッチを含み、それぞれが行動の空間(政治空間)において異なる局所的最適に関連付けられている。
このような状況下では、最適なニッチに突き当たるのに十分な長さの貧弱なローカルオプティマによる気晴らしを避けることができる学習プロセスを設計することはしばしば困難である。
本研究では,複数の可変値ニッチを持つ環境において,ベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
提案するアルゴリズムは,エージェントアーキテクチャと学習規則という2つの部分から構成される。
エージェントアーキテクチャは複数のサブ政治を含む。
学習ルールは、進化的計算におけるフィットネス共有にインスパイアされ、単一のエージェントの内部集団に対して新しい方法でバリュー分解ネットワークを用いた強化学習に適用される。
具体的には、ある政策の経験が他のすべての政策を更新するのに使われる余分な損失項を追加することで、訪問した州の価値見積を減少させることができる。
特に、あるサブポリティクスが特定の州を頻繁に訪れると、他のサブポリティクスで予測される値を減少させる。
さらに,異なる資源(すなわち複数のニッチ)を利用する複数の報酬戦略を持つタスクを容易に作成できる,人工化学インスパイアされたプラットフォームも紹介する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れ、代わりに、人工化学環境と簡易なイラストレーション環境の両方において、より高価値な戦略に収束することを示します。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization [5.590976834881065]
我々は、在庫管理が深層強化学習(DRL)アルゴリズムを確実に適用し、評価するユニークな機会であると主張している。
ひとつはHendsight Differentiable Policy Optimization (HDPO)で、政策性能を最適化するために勾配降下を行う。
第2の手法は、ポリシー(神経)ネットワーク構造と在庫ネットワークの構造を整合させることである。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z) - Learning a subspace of policies for online adaptation in Reinforcement
Learning [14.7945053644125]
制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
訓練条件のバリエーションによく適合するRL法を開発する必要がある。
本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
論文 参考訳(メタデータ) (2021-10-11T11:43:34Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks [19.523737925041278]
一次ネットワークが条件付き動的ネットワークの重みを決定することを示す。
このアプローチは勾配近似を改善し、学習ステップの分散を低減する。
我々は、RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において、異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
論文 参考訳(メタデータ) (2021-06-12T19:43:12Z) - Multi-agent navigation based on deep reinforcement learning and
traditional pathfinding algorithm [0.0]
我々は,マルチエージェント衝突回避問題のための新しいフレームワークを開発する。
このフレームワークは、従来のパスフィニングアルゴリズムと強化学習を組み合わせたものだ。
我々のアプローチでは、エージェントはナビゲートするか、パートナーを避けるために簡単な行動をとるかを学ぶ。
論文 参考訳(メタデータ) (2020-12-05T08:56:58Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。