論文の概要: Upside Down Reinforcement Learning with Policy Generators
- arxiv url: http://arxiv.org/abs/2501.16288v1
- Date: Mon, 27 Jan 2025 18:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:39.823526
- Title: Upside Down Reinforcement Learning with Policy Generators
- Title(参考訳): 政策立案者による強化学習のアップサイド
- Authors: Jacopo Di Ventura, Dylan R. Ashley, Francesco Faccio, Vincent Herrmann, Jürgen Schmidhuber,
- Abstract要約: Upside Down Reinforcement Learning (UDRL)は、強化学習問題を解決するための有望なフレームワークである。
UDRLを深層ニューラルネットワークポリシーのコマンド条件付きジェネレータの学習タスクに拡張する。
UDRLPG(Upside Down Reinforcement Learning with Policy Generators)と呼ばれる我々の手法は、同等の手法を合理化している。
- 参考スコア(独自算出の注目度): 26.883212329754848
- License:
- Abstract: Upside Down Reinforcement Learning (UDRL) is a promising framework for solving reinforcement learning problems which focuses on learning command-conditioned policies. In this work, we extend UDRL to the task of learning a command-conditioned generator of deep neural network policies. We accomplish this using Hypernetworks - a variant of Fast Weight Programmers, which learn to decode input commands representing a desired expected return into command-specific weight matrices. Our method, dubbed Upside Down Reinforcement Learning with Policy Generators (UDRLPG), streamlines comparable techniques by removing the need for an evaluator or critic to update the weights of the generator. To counteract the increased variance in last returns caused by not having an evaluator, we decouple the sampling probability of the buffer from the absolute number of policies in it, which, together with a simple weighting strategy, improves the empirical convergence of the algorithm. Compared with existing algorithms, UDRLPG achieves competitive performance and high returns, sometimes outperforming more complex architectures. Our experiments show that a trained generator can generalize to create policies that achieve unseen returns zero-shot. The proposed method appears to be effective in mitigating some of the challenges associated with learning highly multimodal functions. Altogether, we believe that UDRLPG represents a promising step forward in achieving greater empirical sample efficiency in RL. A full implementation of UDRLPG is publicly available at https://github.com/JacopoD/udrlpg_
- Abstract(参考訳): Upside Down Reinforcement Learning (UDRL)は、コマンド条件の学習に焦点を当てた強化学習問題を解決するための有望なフレームワークである。
本研究では、UDRLを深層ニューラルネットワークポリシーの指令条件付きジェネレータの学習タスクに拡張する。
Hypernetworks - Fast Weight Programmersの亜種で、期待する戻り値を表す入力コマンドを、コマンド固有の重み行列にデコードすることを学ぶ。
UDRLPG(Upside Down Reinforcement Learning with Policy Generators)と呼ばれる本手法は,評価器や評論家が発電機の重量を更新する必要をなくし,同等の手法を合理化する。
評価器を持たないことによる最後のリターンのばらつきの増加に対処するため、バッファのサンプリング確率を絶対数のポリシーから切り離し、単純な重み付け戦略とともにアルゴリズムの経験的収束を改善する。
既存のアルゴリズムと比較して、UDRLPGは競争性能と高いリターンを達成し、時にはより複雑なアーキテクチャよりも優れている。
我々の実験では、訓練されたジェネレータが一般化して、目に見えないリターンをゼロショットで達成できるポリシーを作成できることが示されている。
提案手法は,高度マルチモーダル関数の学習に伴う課題の軽減に有効であると考えられる。
いずれにせよ,UDRLPGは,RLにおいてより優れた実験サンプル効率を実現するための,有望な一歩であると考えられる。
UDRLPGの完全な実装はhttps://github.com/JacopoD/udrlpg_で公開されている。
関連論文リスト
- Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Goal-Conditioned Generators of Deep Policies [14.946533606788758]
目的条件付きニューラルネット(NN)について検討し、コンテキスト固有の重み行列の形で深部NNポリシーを学習する。
NNジェネレータは、パラメータ空間の強力な探索とコマンド間の一般化を組み合わせて、より優れたポリシーを反復的に見つける。
実験は、単一の学習されたポリシージェネレータが、トレーニング中に見られるリターンを達成するポリシーを生成する方法を示している。
論文 参考訳(メタデータ) (2022-07-04T16:41:48Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。