論文の概要: Trajectory balance: Improved credit assignment in GFlowNets
- arxiv url: http://arxiv.org/abs/2201.13259v3
- Date: Wed, 4 Oct 2023 16:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 23:05:19.821831
- Title: Trajectory balance: Improved credit assignment in GFlowNets
- Title(参考訳): 軌道バランス:GFlowNetsにおける信用割当の改善
- Authors: Nikolay Malkin, Moksh Jain, Emmanuel Bengio, Chen Sun, Yoshua Bengio
- Abstract要約: 従来提案したGFlowNetの学習目標,フローマッチング,詳細なバランスは,長いアクションシーケンスをまたいだ非効率な信用伝播の傾向が示唆された。
本稿では,GFlowNetsの新しい学習目標であるトラジェクトリバランスを,従来使用されていた目的に対して,より効率的な代替手段として提案する。
4つの異なる領域の実験において、GFlowNet収束のための軌道バランス目標の利点、生成されたサンプルの多様性、長いアクションシーケンスや大きなアクション空間に対する堅牢性を実証的に実証した。
- 参考スコア(独自算出の注目度): 63.687669765579585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative flow networks (GFlowNets) are a method for learning a stochastic
policy for generating compositional objects, such as graphs or strings, from a
given unnormalized density by sequences of actions, where many possible action
sequences may lead to the same object. We find previously proposed learning
objectives for GFlowNets, flow matching and detailed balance, which are
analogous to temporal difference learning, to be prone to inefficient credit
propagation across long action sequences. We thus propose a new learning
objective for GFlowNets, trajectory balance, as a more efficient alternative to
previously used objectives. We prove that any global minimizer of the
trajectory balance objective can define a policy that samples exactly from the
target distribution. In experiments on four distinct domains, we empirically
demonstrate the benefits of the trajectory balance objective for GFlowNet
convergence, diversity of generated samples, and robustness to long action
sequences and large action spaces.
- Abstract(参考訳): 生成フローネットワーク(英:generative flow network、gflownets)は、グラフや文字列のような合成オブジェクトを生成する確率的ポリシーを、アクションのシーケンスによって与えられた非正規化密度から学習する手法である。
従来提案したGFlowNetの学習目標,フローマッチング,および時間差分学習に類似した詳細なバランスは,長時間の行動系列にまたがる非効率な信用伝播の傾向が示唆された。
そこで本稿では,GFlowNetsの新しい学習目標であるトラジェクトリバランスを,これまで使用されていた目的に対して,より効率的な代替手段として提案する。
軌道バランス目標の任意の大域的最小化器が、対象分布から正確にサンプリングするポリシーを定義できることを示す。
4つの異なる領域の実験において、GFlowNet収束のための軌道バランス目標の利点、生成されたサンプルの多様性、長いアクションシーケンスや大きなアクション空間に対する堅牢性を実証的に実証した。
関連論文リスト
- On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。
本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文 参考訳(メタデータ) (2024-07-03T13:42:21Z) - Baking Symmetry into GFlowNets [58.932776403471635]
GFlowNetsは、さまざまな候補を高い報酬で生成する上で、有望なパフォーマンスを示している。
本研究は,生成過程における等価な動作を特定することにより,GFlowNetに対称性を統合することを目的とする。
論文 参考訳(メタデータ) (2024-06-08T10:11:10Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。
GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。
近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。
本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - A Variational Perspective on Generative Flow Networks [21.97829447881589]
生成フローネットワーク(GFN)は複合オブジェクトの逐次サンプリングのためのモデルである。
GFNの変動目的を,KL(Kullback-Leibler)の前方分布と後方分布の相違点の観点から定義する。
論文 参考訳(メタデータ) (2022-10-14T17:45:59Z) - Improving Generative Flow Networks with Path Regularization [8.848799220256366]
近年,ジェネレーティブ・フロー・ネットワーク(GFlowNets)は,与えられた報酬関数に比例する確率を持つ行動列によって合成対象を生成する学習ポリシーのモデルとして提案されている。
本稿では,GFlowNetの基盤構造に事前制約を課す最適輸送理論に基づく経路正規化手法を提案する。
論文 参考訳(メタデータ) (2022-09-29T20:54:41Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。