論文の概要: Goal-Conditioned Generators of Deep Policies
- arxiv url: http://arxiv.org/abs/2207.01570v1
- Date: Mon, 4 Jul 2022 16:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 13:52:46.297388
- Title: Goal-Conditioned Generators of Deep Policies
- Title(参考訳): ディープ・ポリシーのゴールコンディション・ジェネレータ
- Authors: Francesco Faccio, Vincent Herrmann, Aditya Ramesh, Louis Kirsch,
J\"urgen Schmidhuber
- Abstract要約: 目的条件付きニューラルネット(NN)について検討し、コンテキスト固有の重み行列の形で深部NNポリシーを学習する。
NNジェネレータは、パラメータ空間の強力な探索とコマンド間の一般化を組み合わせて、より優れたポリシーを反復的に見つける。
実験は、単一の学習されたポリシージェネレータが、トレーニング中に見られるリターンを達成するポリシーを生成する方法を示している。
- 参考スコア(独自算出の注目度): 14.946533606788758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned Reinforcement Learning (RL) aims at learning optimal
policies, given goals encoded in special command inputs. Here we study
goal-conditioned neural nets (NNs) that learn to generate deep NN policies in
form of context-specific weight matrices, similar to Fast Weight Programmers
and other methods from the 1990s. Using context commands of the form "generate
a policy that achieves a desired expected return," our NN generators combine
powerful exploration of parameter space with generalization across commands to
iteratively find better and better policies. A form of weight-sharing
HyperNetworks and policy embeddings scales our method to generate deep NNs.
Experiments show how a single learned policy generator can produce policies
that achieve any return seen during training. Finally, we evaluate our
algorithm on a set of continuous control tasks where it exhibits competitive
performance. Our code is public.
- Abstract(参考訳): 目標条件強化学習(RL)は、特別なコマンド入力に符号化された目標を前提として、最適なポリシーを学ぶことを目的としている。
ここでは,1990年代のFast Weight Programmersなどの手法と同様に,コンテキスト固有の重み行列の形で,深いNNポリシを生成することを学習する目標条件ニューラルネットワーク(NN)について検討する。
我々のNNジェネレータは、"期待されるリターンを達成するポリシーを生成する"という形式のコンテキストコマンドを使用して、パラメータ空間の強力な探索とコマンド間の一般化を組み合わせて、より優れたポリシーを反復的に見つける。
重み共有ハイパーネットワークとポリシー埋め込みの形式は、この手法をスケールして深いnnを生成する。
実験は、単一の学習されたポリシージェネレータが、トレーニング中に見られるリターンを達成するポリシーを生成する方法を示している。
最後に、競合性能を示す一連の連続制御タスクに基づいて、アルゴリズムの評価を行う。
私たちのコードは公開されています。
関連論文リスト
- AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文 参考訳(メタデータ) (2024-08-31T03:53:57Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Randomized Policy Learning for Continuous State and Action MDPs [8.109579454896128]
我々は、連続状態と行動空間を持つMDPに対する一般的なポリシー反復アルゴリズムであるtextttRANDPOLを提案する。
課題のある環境で数値性能を示し、それらをディープニューラルネットワークベースのアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-08T02:49:47Z) - PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。
本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-03-16T00:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。