論文の概要: Random Policy Evaluation Uncovers Policies of Generative Flow Networks
- arxiv url: http://arxiv.org/abs/2406.02213v2
- Date: Wed, 12 Feb 2025 02:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:51.920480
- Title: Random Policy Evaluation Uncovers Policies of Generative Flow Networks
- Title(参考訳): 生成フローネットワークのポリシーを明らかにするランダムポリシー評価
- Authors: Haoran He, Emmanuel Bengio, Qingpeng Cai, Ling Pan,
- Abstract要約: GFlowNetsは、通常報酬の最大化を目的とした強化学習(RL)との強いつながりを共有している。
本稿では、GFlowNetsとRLの最も基本的なコンポーネントであるポリシー評価の基本的な関係を明らかにする。
本稿では,GFlowNetsと同じ報酬マッチング効果を達成できる修正ランダムポリシー評価(RPE)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.294107455811496
- License:
- Abstract: The Generative Flow Network (GFlowNet) is a probabilistic framework in which an agent learns a stochastic policy and flow functions to sample objects with probability proportional to an unnormalized reward function. GFlowNets share a strong connection with reinforcement learning (RL) that typically aims to maximize reward. A number of recent works explored connections between GFlowNets and maximum entropy (MaxEnt) RL, which incorporates entropy regularization into the standard RL objective. However, the relationship between GFlowNets and standard RL remains largely unexplored, despite the inherent similarities in their sequential decision-making nature. While GFlowNets can discover diverse solutions through specialized flow-matching objectives, connecting them to standard RL can simplify their implementation through well-established RL principles and also improve RL's capabilities in diverse solution discovery (a critical requirement in many real-world applications), and bridging this gap can further unlock the potential of both fields. In this paper, we bridge this gap by revealing a fundamental connection between GFlowNets and one of the most basic components of RL -- policy evaluation. Surprisingly, we find that the value function obtained from evaluating a uniform policy is closely associated with the flow functions in GFlowNets. Building upon these insights, we introduce a rectified random policy evaluation (RPE) algorithm, which achieves the same reward-matching effect as GFlowNets based on simply evaluating a fixed random policy, offering a new perspective. Empirical results across extensive benchmarks demonstrate that RPE achieves competitive results compared to previous approaches, shedding light on the previously overlooked connection between (non-MaxEnt) RL and GFlowNets.
- Abstract(参考訳): Generative Flow Network (GFlowNet) は、エージェントが確率的ポリシーを学習し、フロー関数が非正規化報酬関数に比例した確率でオブジェクトをサンプリングする確率的フレームワークである。
GFlowNetsは、通常報酬の最大化を目的とした強化学習(RL)との強いつながりを共有している。
近年、GFlowNetsとMaxEnt(MaxEnt) RLの接続を探索し、エントロピー正規化を標準RLの目的に組み込んだ。
しかし、GFlowNetsと標準RLの関係は、そのシーケンシャルな意思決定性に固有の類似性があるにもかかわらず、ほとんど解明されていない。
GFlowNetsは、特殊なフローマッチングの目的を通じて多様なソリューションを発見できるが、それらを標準のRLに接続することは、確立されたRL原則を通じて実装を簡素化し、また、多様なソリューション発見(多くの現実世界のアプリケーションにおいて重要な要件)におけるRLの機能を改善し、このギャップを埋めることで、両方の分野の可能性をさらに解放することができる。
本稿では,このギャップを,GFlowNetsとRLの最も基本的なコンポーネントであるポリシー評価との基本的な関係を明らかにすることによって埋める。
意外なことに、一様ポリシーの評価から得られた値関数は、GFlowNetsのフロー関数と密接に関連している。
これらの知見に基づいて、GFlowNetsと同じ報酬マッチング効果を、固定されたランダムポリシーを簡易に評価し、新たな視点を提供する修正ランダムポリシー評価(RPE)アルゴリズムを導入する。
広範なベンチマークによる実証的な結果から、RPEは以前のアプローチと比較して競争的な結果が得られることが示され、これまで見過ごされていた(非MaxEnt)RLとGFlowNetsの接続に光を当てている。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - GFlowNet Training by Policy Gradients [11.02335801879944]
我々は,従来の強化学習(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化する,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。
これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。
論文 参考訳(メタデータ) (2024-08-12T01:24:49Z) - On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。
本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文 参考訳(メタデータ) (2024-07-03T13:42:21Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。
GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。
近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。
本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Generative Flow Networks as Entropy-Regularized RL [4.857649518812728]
生成フローネットワーク(ジェネレーティブフローネットワーク、英:generative flow network、GFlowNets)は、一連の行動を通じて与えられた報酬に比例確率を持つ合成対象をサンプリングするためのポリシーを訓練する手法である。
生成フローネットワークの学習作業は,エントロピー規則化強化学習問題として効率的に行うことができることを示す。
先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-19T17:31:40Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - A theory of continuous generative flow networks [104.93913776866195]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、非正規化されたターゲット分布からサンプルを抽出するように訓練されたアモータイズされた変分推論アルゴリズムである。
本稿では、既存の離散GFlowNetと、連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案する。
論文 参考訳(メタデータ) (2023-01-30T00:37:56Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。