論文の概要: Order-Preserving GFlowNets
- arxiv url: http://arxiv.org/abs/2310.00386v2
- Date: Sun, 25 Feb 2024 16:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:19:55.609017
- Title: Order-Preserving GFlowNets
- Title(参考訳): 順序保存型GFlowNets
- Authors: Yihang Chen, Lukas Mauch
- Abstract要約: Generative Flow Networks (GFlowNets) は、与えられた報酬に比例した確率を持つ様々な候補をサンプリングする方法として導入された。
OP-GFNsサンプルは、学習された報酬関数に比例する確率を持ち、候補に対して与えられた(部分的な)順序に一致する。
OP-GFNの最先端性能を単目的および多目的データセットで実証する。
- 参考スコア(独自算出の注目度): 0.9532413070964598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Flow Networks (GFlowNets) have been introduced as a method to
sample a diverse set of candidates with probabilities proportional to a given
reward. However, GFlowNets can only be used with a predefined scalar reward,
which can be either computationally expensive or not directly accessible, in
the case of multi-objective optimization (MOO) tasks for example. Moreover, to
prioritize identifying high-reward candidates, the conventional practice is to
raise the reward to a higher exponent, the optimal choice of which may vary
across different environments. To address these issues, we propose
Order-Preserving GFlowNets (OP-GFNs), which sample with probabilities in
proportion to a learned reward function that is consistent with a provided
(partial) order on the candidates, thus eliminating the need for an explicit
formulation of the reward function. We theoretically prove that the training
process of OP-GFNs gradually sparsifies the learned reward landscape in
single-objective maximization tasks. The sparsification concentrates on
candidates of a higher hierarchy in the ordering, ensuring exploration at the
beginning and exploitation towards the end of the training. We demonstrate
OP-GFN's state-of-the-art performance in single-objective maximization (totally
ordered) and multi-objective Pareto front approximation (partially ordered)
tasks, including synthetic datasets, molecule generation, and neural
architecture search.
- Abstract(参考訳): Generative Flow Networks (GFlowNets) は、与えられた報酬に比例した確率を持つ様々な候補をサンプリングする方法として導入された。
しかし、GFlowNetsは、例えばマルチオブジェクト最適化(MOO)タスクの場合、計算コストがかかるか直接アクセスできないかのいずれかで、事前に定義されたスカラー報酬でのみ使用できる。
さらに、上位候補の特定を優先するために、従来の手法では、異なる環境にまたがる最適な選択である、より高い指数に対する報酬を上げる。
これらの問題に対処するため,提案手法では,学習報酬関数に比例する確率で,候補に与えられた(部分的な)順序と一致し,報酬関数の明示的な定式化を不要とした順序保存型gflownets(op-gfns)を提案する。
我々は,OP-GFNの学習過程が,単目的最大化タスクにおいて学習された報酬の景観を徐々に分散させることを理論的に証明する。
スパシフィケーションは、順序付けにおける上位階層の候補に集中し、開始時の探索を確実にし、訓練の終了に向けて搾取する。
OP-GFNの最先端性能を,合成データセット,分子生成,ニューラルアーキテクチャ探索など,単目的最大化(totally order)および多目的パレートフロント近似(partial order)タスクで実証する。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。
本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文 参考訳(メタデータ) (2024-07-03T13:42:21Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。
GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。
近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。
本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - GFlowNet Foundations [66.69854262276391]
Generative Flow Networks (GFlowNets) は、多様な候補をアクティブな学習コンテキストでサンプリングする方法として導入された。
GFlowNetのさらなる理論的性質について述べる。
論文 参考訳(メタデータ) (2021-11-17T17:59:54Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。