論文の概要: Pre-Training and Fine-Tuning Generative Flow Networks
- arxiv url: http://arxiv.org/abs/2310.03419v1
- Date: Thu, 5 Oct 2023 09:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 16:45:02.363904
- Title: Pre-Training and Fine-Tuning Generative Flow Networks
- Title(参考訳): 事前学習および微調整型生成フローネットワーク
- Authors: Ling Pan and Moksh Jain and Kanika Madan and Yoshua Bengio
- Abstract要約: 本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
- 参考スコア(独自算出の注目度): 61.90529626590415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Flow Networks (GFlowNets) are amortized samplers that learn
stochastic policies to sequentially generate compositional objects from a given
unnormalized reward distribution. They can generate diverse sets of high-reward
objects, which is an important consideration in scientific discovery tasks.
However, as they are typically trained from a given extrinsic reward function,
it remains an important open challenge about how to leverage the power of
pre-training and train GFlowNets in an unsupervised fashion for efficient
adaptation to downstream tasks. Inspired by recent successes of unsupervised
pre-training in various domains, we introduce a novel approach for reward-free
pre-training of GFlowNets. By framing the training as a self-supervised
problem, we propose an outcome-conditioned GFlowNet (OC-GFN) that learns to
explore the candidate space. Specifically, OC-GFN learns to reach any targeted
outcomes, akin to goal-conditioned policies in reinforcement learning. We show
that the pre-trained OC-GFN model can allow for a direct extraction of a policy
capable of sampling from any new reward functions in downstream tasks.
Nonetheless, adapting OC-GFN on a downstream task-specific reward involves an
intractable marginalization over possible outcomes. We propose a novel way to
approximate this marginalization by learning an amortized predictor enabling
efficient fine-tuning. Extensive experimental results validate the efficacy of
our approach, demonstrating the effectiveness of pre-training the OC-GFN, and
its ability to swiftly adapt to downstream tasks and discover modes more
efficiently. This work may serve as a foundation for further exploration of
pre-training strategies in the context of GFlowNets.
- Abstract(参考訳): Generative Flow Networks (GFlowNets) は、確率的ポリシーを学習し、与えられた非正規化された報酬分布から連続的に合成オブジェクトを生成するアモータイズされたサンプルである。
それらは、科学的な発見タスクにおいて重要な考慮事項である、様々な高次の物体のセットを生成することができる。
しかしながら、それらは通常、与えられた外部報酬関数から訓練されるため、ダウンストリームタスクへの効率的な適応のために教師なしの方法でフローネットの事前訓練と訓練のパワーをどのように活用するかという、重要なオープンチャレンジである。
各種領域における教師なし事前学習の成功に触発されて、GFlowNetの報酬なし事前学習のための新しいアプローチを導入する。
自己教師付き問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNet(OC-GFN)を提案する。
具体的には、OC-GFNは強化学習における目標条件付きポリシーと同様に、対象とする結果に到達することを学ぶ。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
それでも、OC-GFNを下流のタスク固有の報酬に適応させるには、起こりうる結果に対する難解な限界化が伴う。
本稿では,効率的な微調整が可能な償却予測器を学習することにより,この辺縁化を近似する新しい手法を提案する。
その結果, OC-GFNの事前学習の有効性と, 下流のタスクに迅速に適応し, より効率的にモードを発見できることが実証された。
この作業は、gflownetsのコンテキストにおける事前学習戦略のさらなる探求の基盤となるかもしれない。
関連論文リスト
- On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。
本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文 参考訳(メタデータ) (2024-07-03T13:42:21Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。
GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。
近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。
本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Evolution Guided Generative Flow Networks [11.609895436955242]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。
GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。
進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文 参考訳(メタデータ) (2024-02-03T15:28:53Z) - Order-Preserving GFlowNets [0.9532413070964598]
Generative Flow Networks (GFlowNets) は、与えられた報酬に比例した確率を持つ様々な候補をサンプリングする方法として導入された。
OP-GFNsサンプルは、学習された報酬関数に比例する確率を持ち、候補に対して与えられた(部分的な)順序に一致する。
OP-GFNの最先端性能を単目的および多目的データセットで実証する。
論文 参考訳(メタデータ) (2023-09-30T14:06:53Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。