論文の概要: An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode
Discovery in GFlowNets
- arxiv url: http://arxiv.org/abs/2307.07674v2
- Date: Tue, 18 Jul 2023 01:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 11:30:01.812504
- Title: An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode
Discovery in GFlowNets
- Title(参考訳): gflownetsにおける再生バッファを用いたモード発見の有効性に関する実証的研究
- Authors: Nikhil Vemgal, Elaine Lau, Doina Precup
- Abstract要約: 強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。
GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
- 参考スコア(独自算出の注目度): 47.82697599507171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) algorithms aim to learn an optimal policy by
iteratively sampling actions to learn how to maximize the total expected
return, $R(x)$. GFlowNets are a special class of algorithms designed to
generate diverse candidates, $x$, from a discrete set, by learning a policy
that approximates the proportional sampling of $R(x)$. GFlowNets exhibit
improved mode discovery compared to conventional RL algorithms, which is very
useful for applications such as drug discovery and combinatorial search.
However, since GFlowNets are a relatively recent class of algorithms, many
techniques which are useful in RL have not yet been associated with them. In
this paper, we study the utilization of a replay buffer for GFlowNets. We
explore empirically various replay buffer sampling techniques and assess the
impact on the speed of mode discovery and the quality of the modes discovered.
Our experimental results in the Hypergrid toy domain and a molecule synthesis
environment demonstrate significant improvements in mode discovery when
training with a replay buffer, compared to training only with trajectories
generated on-policy.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。
GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
GFlowNetsは従来のRLアルゴリズムよりも改良されたモード発見を示しており、薬物発見や組合せ探索などの応用に非常に有用である。
しかし、GFlowNetsは比較的最近のアルゴリズムのクラスであるため、RLで有用なテクニックの多くは、まだそれらと関連付けられていない。
本稿では,GFlowNetの再生バッファの利用について検討する。
実験的に様々なリプレイバッファサンプリング手法を探索し、モード発見の速度と検出モードの品質に与える影響を評価する。
ハイパーグリッドトイドメインと分子合成環境における実験結果は,リプレイバッファを用いたトレーニング時のモード発見において,オンポリシー生成の軌道のみを用いたトレーニングに比べて有意な改善を示した。
関連論文リスト
- Rectifying Reinforcement Learning for Reward Matching [12.294107455811496]
我々は,GFlowNetsと統一政策の政策評価の新たなつながりを確立する。
本稿では,GFlowNetsと同じ報酬マッチング効果を達成できる新しいポリシー評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:11:53Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。
GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。
近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。
本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Local Search GFlowNets [85.0053493167887]
Generative Flow Networks (GFlowNets) は、報酬に比例した離散オブジェクト上の分布を学習するアモータイズされたサンプリング手法である。
GFlowNetsは、多様なサンプルを生成する素晴らしい能力を示していますが、広いサンプル空間での過剰な探索のために、常に高い報酬を持つサンプルを生成するのに苦労することがあります。
本稿では,局所探索によるGFlowNetsの学習を提案する。
論文 参考訳(メタデータ) (2023-10-04T10:27:17Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。