論文の概要: Discovering Diverse Solutions in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.07084v1
- Date: Fri, 12 Mar 2021 04:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:33:48.980519
- Title: Discovering Diverse Solutions in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における多様なソリューションの発見
- Authors: Takayuki Osa, Voot Tangkaratt and Masashi Sugiyama
- Abstract要約: 強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
- 参考スコア(独自算出の注目度): 84.45686627019408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) algorithms are typically limited to learning a
single solution of a specified task, even though there often exists diverse
solutions to a given task. Compared with learning a single solution, learning a
set of diverse solutions is beneficial because diverse solutions enable robust
few-shot adaptation and allow the user to select a preferred solution. Although
previous studies have showed that diverse behaviors can be modeled with a
policy conditioned on latent variables, an approach for modeling an infinite
set of diverse solutions with continuous latent variables has not been
investigated. In this study, we propose an RL method that can learn infinitely
many solutions by training a policy conditioned on a continuous or discrete
low-dimensional latent variable. Through continuous control tasks, we
demonstrate that our method can learn diverse solutions in a data-efficient
manner and that the solutions can be used for few-shot adaptation to solve
unseen tasks.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは通常、特定のタスクに対する多様なソリューションが存在する場合が多いが、特定のタスクの単一のソリューションを学ぶことに限定される。
単一のソリューションを学習することに比べ、多様なソリューションのセットを学習することは有益である。
従来の研究では、潜伏変数に条件付きポリシーで多様な挙動をモデル化できることが示されているが、連続潜伏変数を持つ無限の多様な解をモデル化するためのアプローチは研究されていない。
本研究では,連続的あるいは離散的低次元潜在変数に基づくポリシー条件を訓練することにより無限に多くの解を学習できるrl法を提案する。
連続的な制御タスクを通じて,本手法がデータ効率のよい方法で多様な解を学習し,その解を無意味な課題の解決に使用できることを実証する。
関連論文リスト
- Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning [51.00472376469131]
オフライン強化学習において,一つのタスクから複数の解を学習するアルゴリズムを提案する。
実験の結果,提案アルゴリズムはオフラインRLにおいて,定性的,定量的に複数の解を学習することがわかった。
論文 参考訳(メタデータ) (2024-06-10T03:25:49Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - PolyNet: Learning Diverse Solution Strategies for Neural Combinatorial
Optimization [4.764047597837088]
補完的なソリューション戦略を学習することで、ソリューション空間の探索を改善するアプローチであるPolyNetを導入する。
他の作業とは対照的に、PolyNetはシングルデコーダと、多様なソリューション生成を強制しないトレーニングスキーマのみを使用する。
論文 参考訳(メタデータ) (2024-02-21T16:38:14Z) - Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems [0.6906005491572401]
本研究では、教師なし学習(UL)に基づくCOソルバのための連続的アン緩和(CTRA)を提案する。
CTRAは、単一のトレーニング実行で多様なソリューションを見つけるための計算効率のよいフレームワークである。
数値実験により、CTRAにより、ULベースの解法は、既存の解法を繰り返すよりもはるかに高速にこれらの多様な解を見つけることができることが示された。
論文 参考訳(メタデータ) (2024-02-03T15:31:05Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z) - Pareto Multi-Task Learning [53.90732663046125]
マルチタスク学習は複数の相関タスクを同時に解くための強力な方法である。
異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化するひとつのソリューションを見つけることは、しばしば不可能である。
近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
論文 参考訳(メタデータ) (2019-12-30T08:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。