論文の概要: Discovering Diverse Solutions in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.07084v1
- Date: Fri, 12 Mar 2021 04:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:33:48.980519
- Title: Discovering Diverse Solutions in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における多様なソリューションの発見
- Authors: Takayuki Osa, Voot Tangkaratt and Masashi Sugiyama
- Abstract要約: 強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
- 参考スコア(独自算出の注目度): 84.45686627019408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) algorithms are typically limited to learning a
single solution of a specified task, even though there often exists diverse
solutions to a given task. Compared with learning a single solution, learning a
set of diverse solutions is beneficial because diverse solutions enable robust
few-shot adaptation and allow the user to select a preferred solution. Although
previous studies have showed that diverse behaviors can be modeled with a
policy conditioned on latent variables, an approach for modeling an infinite
set of diverse solutions with continuous latent variables has not been
investigated. In this study, we propose an RL method that can learn infinitely
many solutions by training a policy conditioned on a continuous or discrete
low-dimensional latent variable. Through continuous control tasks, we
demonstrate that our method can learn diverse solutions in a data-efficient
manner and that the solutions can be used for few-shot adaptation to solve
unseen tasks.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは通常、特定のタスクに対する多様なソリューションが存在する場合が多いが、特定のタスクの単一のソリューションを学ぶことに限定される。
単一のソリューションを学習することに比べ、多様なソリューションのセットを学習することは有益である。
従来の研究では、潜伏変数に条件付きポリシーで多様な挙動をモデル化できることが示されているが、連続潜伏変数を持つ無限の多様な解をモデル化するためのアプローチは研究されていない。
本研究では,連続的あるいは離散的低次元潜在変数に基づくポリシー条件を訓練することにより無限に多くの解を学習できるrl法を提案する。
連続的な制御タスクを通じて,本手法がデータ効率のよい方法で多様な解を学習し,その解を無意味な課題の解決に使用できることを実証する。
関連論文リスト
- PolyNet: Learning Diverse Solution Strategies for Neural Combinatorial
Optimization [4.764047597837088]
補完的なソリューション戦略を学習することで、ソリューション空間の探索を改善するアプローチであるPolyNetを導入する。
他の作業とは対照的に、PolyNetはシングルデコーダと、多様なソリューション生成を強制しないトレーニングスキーマのみを使用する。
論文 参考訳(メタデータ) (2024-02-21T16:38:14Z) - Continuous Tensor Relaxation for Finding Diverse Solutions in
Combinatorial Optimization Problems [0.8158530638728501]
本研究では,教師なし学習に基づくCOソルバのための連続緩和アニーリング(CTRA)を提案する。
CTRAは、離散決定変数を連続テンソルに変換する連続緩和アプローチを拡張して、様々な問題に同時に対処する。
数値実験により、CTRAにより、ULベースの解法は既存のULベースの解法よりもはるかに高速に不均一でペナルティに分散した解を見つけることができることが示された。
論文 参考訳(メタデータ) (2024-02-03T15:31:05Z) - Attention-based Reinforcement Learning for Combinatorial Optimization:
Application to Job Shop Scheduling Problem [2.2113048305291683]
そこで本研究では,求人スケジューリング問題に対する注意に基づく強化学習手法を提案する。
重要な結果として,提案手法の学習者は,学習に使われない大規模問題を解くために再利用できる。
論文 参考訳(メタデータ) (2024-01-29T21:31:54Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z) - Pareto Multi-Task Learning [53.90732663046125]
マルチタスク学習は複数の相関タスクを同時に解くための強力な方法である。
異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化するひとつのソリューションを見つけることは、しばしば不可能である。
近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
論文 参考訳(メタデータ) (2019-12-30T08:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。