Fugu-MT 論文翻訳(概要): Random Policy Evaluation Uncovers Policies of Generative Flow Networks

論文の概要: Random Policy Evaluation Uncovers Policies of Generative Flow Networks

arxiv url: http://arxiv.org/abs/2406.02213v2
Date: Wed, 12 Feb 2025 02:53:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.584041
Title: Random Policy Evaluation Uncovers Policies of Generative Flow Networks
Title（参考訳）: 生成フローネットワークのポリシーを明らかにするランダムポリシー評価
Authors: Haoran He, Emmanuel Bengio, Qingpeng Cai, Ling Pan,
Abstract要約: GFlowNetsは、通常報酬の最大化を目的とした強化学習(RL)との強いつながりを共有している。本稿では、GFlowNetsとRLの最も基本的なコンポーネントであるポリシー評価の基本的な関係を明らかにする。本稿では,GFlowNetsと同じ報酬マッチング効果を達成できる修正ランダムポリシー評価(RPE)アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 12.294107455811496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Generative Flow Network (GFlowNet) is a probabilistic framework in which an agent learns a stochastic policy and flow functions to sample objects with probability proportional to an unnormalized reward function. GFlowNets share a strong connection with reinforcement learning (RL) that typically aims to maximize reward. A number of recent works explored connections between GFlowNets and maximum entropy (MaxEnt) RL, which incorporates entropy regularization into the standard RL objective. However, the relationship between GFlowNets and standard RL remains largely unexplored, despite the inherent similarities in their sequential decision-making nature. While GFlowNets can discover diverse solutions through specialized flow-matching objectives, connecting them to standard RL can simplify their implementation through well-established RL principles and also improve RL's capabilities in diverse solution discovery (a critical requirement in many real-world applications), and bridging this gap can further unlock the potential of both fields. In this paper, we bridge this gap by revealing a fundamental connection between GFlowNets and one of the most basic components of RL -- policy evaluation. Surprisingly, we find that the value function obtained from evaluating a uniform policy is closely associated with the flow functions in GFlowNets. Building upon these insights, we introduce a rectified random policy evaluation (RPE) algorithm, which achieves the same reward-matching effect as GFlowNets based on simply evaluating a fixed random policy, offering a new perspective. Empirical results across extensive benchmarks demonstrate that RPE achieves competitive results compared to previous approaches, shedding light on the previously overlooked connection between (non-MaxEnt) RL and GFlowNets.
Abstract（参考訳）: Generative Flow Network (GFlowNet) は、エージェントが確率的ポリシーを学習し、フロー関数が非正規化報酬関数に比例した確率でオブジェクトをサンプリングする確率的フレームワークである。 GFlowNetsは、通常報酬の最大化を目的とした強化学習(RL)との強いつながりを共有している。近年、GFlowNetsとMaxEnt(MaxEnt) RLの接続を探索し、エントロピー正規化を標準RLの目的に組み込んだ。しかし、GFlowNetsと標準RLの関係は、そのシーケンシャルな意思決定性に固有の類似性があるにもかかわらず、ほとんど解明されていない。 GFlowNetsは、特殊なフローマッチングの目的を通じて多様なソリューションを発見できるが、それらを標準のRLに接続することは、確立されたRL原則を通じて実装を簡素化し、また、多様なソリューション発見(多くの現実世界のアプリケーションにおいて重要な要件)におけるRLの機能を改善し、このギャップを埋めることで、両方の分野の可能性をさらに解放することができる。本稿では,このギャップを,GFlowNetsとRLの最も基本的なコンポーネントであるポリシー評価との基本的な関係を明らかにすることによって埋める。意外なことに、一様ポリシーの評価から得られた値関数は、GFlowNetsのフロー関数と密接に関連している。これらの知見に基づいて、GFlowNetsと同じ報酬マッチング効果を、固定されたランダムポリシーを簡易に評価し、新たな視点を提供する修正ランダムポリシー評価(RPE)アルゴリズムを導入する。広範なベンチマークによる実証的な結果から、RPEは以前のアプローチと比較して競争的な結果が得られることが示され、これまで見過ごされていた(非MaxEnt)RLとGFlowNetsの接続に光を当てている。

関連論文リスト

Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-20T19:12:14Z)
GFlowNet Training by Policy Gradients [11.02335801879944]
我々は,従来の強化学習(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化する,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。
論文参考訳（メタデータ） (2024-08-12T01:24:49Z)
On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文参考訳（メタデータ） (2024-07-03T13:42:21Z)
Baking Symmetry into GFlowNets [58.932776403471635]
GFlowNetsは、さまざまな候補を高い報酬で生成する上で、有望なパフォーマンスを示している。本研究は,生成過程における等価な動作を特定することにより,GFlowNetに対称性を統合することを目的とする。
論文参考訳（メタデータ） (2024-06-08T10:11:10Z)
Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、報酬に確率のあるオブジェクトを逐次生成するポリシーを学ぶためのアモータイズされたサンプリング手法である。 GFlowNetsは、標準的な強化学習手法とは対照的に、多種多様な高次比例オブジェクトを生成する優れた能力を示す。近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。本稿では,これらの課題に対処するため,RBS(Retrospective Backward Synthesis)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-03T09:44:10Z)
Pessimistic Backward Policy for GFlowNets [40.00805723326561]
本稿では,与えられた報酬関数に比例してオブジェクトをサンプリングする生成フローネットワーク(GFlowNets)について検討する。本研究では,GFlowNetが低軌道の訓練により,高逆対象を過小評価する傾向にあることを示す。本稿では,GFlowNetsに対する悲観的なバックワードポリシーを提案し,観測されたフローを最大化し,オブジェクトに対する真の報酬と密接に一致させる。
論文参考訳（メタデータ） (2024-05-25T02:30:46Z)
Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文参考訳（メタデータ） (2024-02-15T20:20:35Z)
Generative Flow Networks as Entropy-Regularized RL [4.857649518812728]
生成フローネットワーク(ジェネレーティブフローネットワーク、英:generative flow network、GFlowNets)は、一連の行動を通じて与えられた報酬に比例確率を持つ合成対象をサンプリングするためのポリシーを訓練する手法である。生成フローネットワークの学習作業は,エントロピー規則化強化学習問題として効率的に行うことができることを示す。先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。
論文参考訳（メタデータ） (2023-10-19T17:31:40Z)
An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode Discovery in GFlowNets [47.82697599507171]
強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。 GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
論文参考訳（メタデータ） (2023-07-15T01:17:14Z)
Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文参考訳（メタデータ） (2023-05-11T22:50:41Z)
Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文参考訳（メタデータ） (2023-02-19T03:19:40Z)
Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文参考訳（メタデータ） (2023-02-11T22:06:17Z)
A theory of continuous generative flow networks [104.93913776866195]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、非正規化されたターゲット分布からサンプルを抽出するように訓練されたアモータイズされた変分推論アルゴリズムである。本稿では、既存の離散GFlowNetと、連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案する。
論文参考訳（メタデータ） (2023-01-30T00:37:56Z)
Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。 GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文参考訳（メタデータ） (2022-10-07T03:33:56Z)
Learning GFlowNets from partial episodes for improved convergence and stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。 GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文参考訳（メタデータ） (2022-09-26T15:44:24Z)
Trajectory balance: Improved credit assignment in GFlowNets [63.687669765579585]
従来提案したGFlowNetの学習目標,フローマッチング,詳細なバランスは,長いアクションシーケンスをまたいだ非効率な信用伝播の傾向が示唆された。本稿では,GFlowNetsの新しい学習目標であるトラジェクトリバランスを,従来使用されていた目的に対して,より効率的な代替手段として提案する。 4つの異なる領域の実験において、GFlowNet収束のための軌道バランス目標の利点、生成されたサンプルの多様性、長いアクションシーケンスや大きなアクション空間に対する堅牢性を実証的に実証した。
論文参考訳（メタデータ） (2022-01-31T14:07:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。