論文の概要: GFlowNet Training by Policy Gradients
- arxiv url: http://arxiv.org/abs/2408.05885v1
- Date: Mon, 12 Aug 2024 01:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:05:59.013620
- Title: GFlowNet Training by Policy Gradients
- Title(参考訳): 政策グラディエントによるGFlowNetトレーニング
- Authors: Puhua Niu, Shili Wu, Mingzhou Fan, Xiaoning Qian,
- Abstract要約: 我々は,従来の強化学習(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化する,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。
これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。
- 参考スコア(独自算出の注目度): 11.02335801879944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Flow Networks (GFlowNets) have been shown effective to generate combinatorial objects with desired properties. We here propose a new GFlowNet training framework, with policy-dependent rewards, that bridges keeping flow balance of GFlowNets to optimizing the expected accumulated reward in traditional Reinforcement-Learning (RL). This enables the derivation of new policy-based GFlowNet training methods, in contrast to existing ones resembling value-based RL. It is known that the design of backward policies in GFlowNet training affects efficiency. We further develop a coupled training strategy that jointly solves GFlowNet forward policy training and backward policy design. Performance analysis is provided with a theoretical guarantee of our policy-based GFlowNet training. Experiments on both simulated and real-world datasets verify that our policy-based strategies provide advanced RL perspectives for robust gradient estimation to improve GFlowNet performance.
- Abstract(参考訳): 生成フローネットワーク(GFlowNets)は、所望の特性を持つ組合せオブジェクトを生成するのに有効であることが示されている。
本稿では,従来のReinforcement-Learning(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化するブリッジを,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。
これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。
GFlowNetトレーニングにおける後方ポリシーの設計が効率に影響を及ぼすことが知られている。
我々はさらに,GFlowNetのフォワード・ポリシー・トレーニングとバック・ポリシー・デザインを共同で解決する総合的なトレーニング・ストラテジーを開発する。
性能分析はポリシーに基づくGFlowNetトレーニングの理論的保証を提供する。
シミュレーションと実世界の両方のデータセットの実験により、我々のポリシーベースの戦略が、GFlowNetの性能を改善するために頑健な勾配推定のための高度なRL視点を提供することを確認した。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - Improving GFlowNets with Monte Carlo Tree Search [6.497027864860203]
近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。
我々はモンテカルロ木探索(MCTS)を適用してGFlowNetの計画能力を高めることを提案する。
実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。
論文 参考訳(メタデータ) (2024-06-19T15:58:35Z) - Rectifying Reinforcement Learning for Reward Matching [12.294107455811496]
我々は,GFlowNetsと統一政策の政策評価の新たなつながりを確立する。
本稿では,GFlowNetsと同じ報酬マッチング効果を達成できる新しいポリシー評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:11:53Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。
GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。
近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。
本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Generative Flow Networks as Entropy-Regularized RL [4.857649518812728]
生成フローネットワーク(ジェネレーティブフローネットワーク、英:generative flow network、GFlowNets)は、一連の行動を通じて与えられた報酬に比例確率を持つ合成対象をサンプリングするためのポリシーを訓練する手法である。
生成フローネットワークの学習作業は,エントロピー規則化強化学習問題として効率的に行うことができることを示す。
先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-19T17:31:40Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。