Fugu-MT 論文翻訳(概要): Discovering Diverse Solutions in Deep Reinforcement Learning

論文の概要: Discovering Diverse Solutions in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2103.07084v1
Date: Fri, 12 Mar 2021 04:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-15 13:33:48.980519
Title: Discovering Diverse Solutions in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習における多様なソリューションの発見
Authors: Takayuki Osa, Voot Tangkaratt and Masashi Sugiyama
Abstract要約: 強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
参考スコア（独自算出の注目度）: 84.45686627019408
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reinforcement learning (RL) algorithms are typically limited to learning a single solution of a specified task, even though there often exists diverse solutions to a given task. Compared with learning a single solution, learning a set of diverse solutions is beneficial because diverse solutions enable robust few-shot adaptation and allow the user to select a preferred solution. Although previous studies have showed that diverse behaviors can be modeled with a policy conditioned on latent variables, an approach for modeling an infinite set of diverse solutions with continuous latent variables has not been investigated. In this study, we propose an RL method that can learn infinitely many solutions by training a policy conditioned on a continuous or discrete low-dimensional latent variable. Through continuous control tasks, we demonstrate that our method can learn diverse solutions in a data-efficient manner and that the solutions can be used for few-shot adaptation to solve unseen tasks.
Abstract（参考訳）: 強化学習(rl)アルゴリズムは通常、特定のタスクに対する多様なソリューションが存在する場合が多いが、特定のタスクの単一のソリューションを学ぶことに限定される。単一のソリューションを学習することに比べ、多様なソリューションのセットを学習することは有益である。従来の研究では、潜伏変数に条件付きポリシーで多様な挙動をモデル化できることが示されているが、連続潜伏変数を持つ無限の多様な解をモデル化するためのアプローチは研究されていない。本研究では,連続的あるいは離散的低次元潜在変数に基づくポリシー条件を訓練することにより無限に多くの解を学習できるrl法を提案する。連続的な制御タスクを通じて,本手法がデータ効率のよい方法で多様な解を学習し,その解を無意味な課題の解決に使用できることを実証する。

関連論文リスト

Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning [51.00472376469131]
オフライン強化学習において,一つのタスクから複数の解を学習するアルゴリズムを提案する。実験の結果,提案アルゴリズムはオフラインRLにおいて,定性的,定量的に複数の解を学習することがわかった。
論文参考訳（メタデータ） (2024-06-10T03:25:49Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
PolyNet: Learning Diverse Solution Strategies for Neural Combinatorial Optimization [4.764047597837088]
補完的なソリューション戦略を学習することで、ソリューション空間の探索を改善するアプローチであるPolyNetを導入する。他の作業とは対照的に、PolyNetはシングルデコーダと、多様なソリューション生成を強制しないトレーニングスキーマのみを使用する。
論文参考訳（メタデータ） (2024-02-21T16:38:14Z)
Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems [0.6906005491572401]
本研究では、教師なし学習(UL)に基づくCOソルバのための連続的アン緩和(CTRA)を提案する。 CTRAは、単一のトレーニング実行で多様なソリューションを見つけるための計算効率のよいフレームワークである。数値実験により、CTRAにより、ULベースの解法は、既存の解法を繰り返すよりもはるかに高速にこれらの多様な解を見つけることができることが示された。
論文参考訳（メタデータ） (2024-02-03T15:31:05Z)
Pareto Set Learning for Neural Multi-objective Combinatorial Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文参考訳（メタデータ） (2022-03-29T09:26:22Z)
Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文参考訳（メタデータ） (2022-01-28T05:53:28Z)
Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。潜在変数を使って一般化可能な学習パターンをモデル化する。推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文参考訳（メタデータ） (2020-10-07T03:11:34Z)
GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文参考訳（メタデータ） (2020-02-17T20:21:20Z)
Pareto Multi-Task Learning [53.90732663046125]
マルチタスク学習は複数の相関タスクを同時に解くための強力な方法である。異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化するひとつのソリューションを見つけることは、しばしば不可能である。近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
論文参考訳（メタデータ） (2019-12-30T08:58:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。