論文の概要: Towards Understanding and Improving GFlowNet Training
- arxiv url: http://arxiv.org/abs/2305.07170v1
- Date: Thu, 11 May 2023 22:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:26:42.126424
- Title: Towards Understanding and Improving GFlowNet Training
- Title(参考訳): GFlowNetトレーニングの理解と改善に向けて
- Authors: Max W. Shen, Emmanuel Bengio, Ehsan Hajiramezanali, Andreas Loukas,
Kyunghyun Cho, Tommaso Biancalani
- Abstract要約: 本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
- 参考スコア(独自算出の注目度): 71.85707593318297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative flow networks (GFlowNets) are a family of algorithms that learn a
generative policy to sample discrete objects $x$ with non-negative reward
$R(x)$. Learning objectives guarantee the GFlowNet samples $x$ from the target
distribution $p^*(x) \propto R(x)$ when loss is globally minimized over all
states or trajectories, but it is unclear how well they perform with practical
limits on training resources. We introduce an efficient evaluation strategy to
compare the learned sampling distribution to the target reward distribution. As
flows can be underdetermined given training data, we clarify the importance of
learned flows to generalization and matching $p^*(x)$ in practice. We
investigate how to learn better flows, and propose (i) prioritized replay
training of high-reward $x$, (ii) relative edge flow policy parametrization,
and (iii) a novel guided trajectory balance objective, and show how it can
solve a substructure credit assignment problem. We substantially improve sample
efficiency on biochemical design tasks.
- Abstract(参考訳): 生成フローネットワーク (Generative Flow Networks, GFlowNets) は、離散オブジェクトを非負の$R(x)$でサンプリングするために生成ポリシーを学ぶアルゴリズムのファミリーである。
学習目的は、目標分布からGFlowNetのサンプルを$x$で保証する$p^*(x) \propto R(x)$ すべての状態や軌道で損失が世界規模で最小化されるが、トレーニングリソースの実際的な制限でどれだけうまく機能するかは定かではない。
学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
トレーニングデータから,フローを過小評価できるため,学習フローが一般化し,実際に$p^*(x)$と一致することの重要性を明らかにする。
より良い流れを学ぶ方法について調査し 提案します
(i)高額なx$のリプレイトレーニングを優先する。
(二)相対的エッジフロー政策のパラメトリゼーション、及び
(iii)新規な誘導軌道バランス目標を示し、サブストラクチャークレジット割当問題をいかに解決できるかを示す。
バイオケミカルデザインタスクにおける試料効率を大幅に改善する。
関連論文リスト
- On Divergence Measures for Training GFlowNets [3.7277730514654555]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、構成可能なオブジェクト上の非正規分布のサンプルとして設計された、償却推論モデルである。
伝統的に、GFlowNetsのトレーニング手順は、提案(フォワードポリシー)とターゲット(バックポリシー)の分布の対数二乗差を最小限にすることを目指している。
我々は、Renyi-$alpha$'s, Tsallis-$alpha$'s, reverse and forward KL'sという4つの分岐測度を概観し、GFlowNetsの学習文脈における勾配に対する統計的に効率的な推定器を設計する。
論文 参考訳(メタデータ) (2024-10-12T03:46:52Z) - Evolution Guided Generative Flow Networks [11.609895436955242]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。
GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。
進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文 参考訳(メタデータ) (2024-02-03T15:28:53Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Better Training of GFlowNets with Local Credit and Incomplete
Trajectories [81.14310509871935]
エネルギー関数が終端状態だけでなく中間状態にも適用できる場合を考える。
これは例えば、エネルギー関数が加法的であるときに達成され、軌道に沿って項が利用できる。
これにより、不完全なトラジェクトリであってもパラメータの更新に適用可能なトレーニングの目標が可能になる。
論文 参考訳(メタデータ) (2023-02-03T12:19:42Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。