Fugu-MT 論文翻訳(概要): Generative Flow Networks as Entropy-Regularized RL

論文の概要: Generative Flow Networks as Entropy-Regularized RL

arxiv url: http://arxiv.org/abs/2310.12934v3
Date: Sun, 25 Feb 2024 19:39:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 19:09:32.257859
Title: Generative Flow Networks as Entropy-Regularized RL
Title（参考訳）: エントロピー規則化RLとしての生成フローネットワーク
Authors: Daniil Tiapkin, Nikita Morozov, Alexey Naumov, Dmitry Vetrov
Abstract要約: 生成フローネットワーク(ジェネレーティブフローネットワーク、英:generative flow network、GFlowNets)は、一連の行動を通じて与えられた報酬に比例確率を持つ合成対象をサンプリングするためのポリシーを訓練する手法である。生成フローネットワークの学習作業は,エントロピー規則化強化学習問題として効率的に行うことができることを示す。先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。
参考スコア（独自算出の注目度）: 4.857649518812728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently proposed generative flow networks (GFlowNets) are a method of training a policy to sample compositional discrete objects with probabilities proportional to a given reward via a sequence of actions. GFlowNets exploit the sequential nature of the problem, drawing parallels with reinforcement learning (RL). Our work extends the connection between RL and GFlowNets to a general case. We demonstrate how the task of learning a generative flow network can be efficiently redefined as an entropy-regularized RL problem with a specific reward and regularizer structure. Furthermore, we illustrate the practical efficiency of this reformulation by applying standard soft RL algorithms to GFlowNet training across several probabilistic modeling tasks. Contrary to previously reported results, we show that entropic RL approaches can be competitive against established GFlowNet training methods. This perspective opens a direct path for integrating RL principles into the realm of generative flow networks.
Abstract（参考訳）: 最近提案された生成フローネットワーク(GFlowNets)は、一連のアクションを通して与えられた報酬に比例する確率を持つ合成離散オブジェクトをサンプリングするポリシーを訓練する手法である。 GFlowNetsはこの問題のシーケンシャルな性質を利用し、強化学習(RL)と平行に描画する。我々の研究は、RL と GFlowNets の接続を一般的なケースに拡張する。生成フローネットワークを学習するタスクを,特定の報酬と正規化器構造を持つエントロピー規則化RL問題として効率的に再定義できることを示す。さらに,複数の確率的モデリングタスクにわたるgflownetトレーニングに標準ソフトrlアルゴリズムを適用することで,この再構成の実用的効率を示す。先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。この観点は、生成フローネットワークの領域にRL原理を統合する直接的な道を開く。

関連論文リスト

A Theory of Multi-Agent Generative Flow Networks [65.53605277612444]
マルチエージェント生成フローネットワーク(MA-GFlowNets)の理論的枠組みを提案する。 MA-GFlowNetsは複数のエージェントに適用して、一連のジョイントアクションを通じて協調的にオブジェクトを生成する。ジョイントフロートレーニングは、(局所的な)GFNのコレクションをユニークな(グローバルな)GFNとしてトレーニングするための、ローカル・グローバルの原則に基づいている。
論文参考訳（メタデータ） (2025-09-24T04:01:21Z)
Online Training and Pruning of Deep Reinforcement Learning Networks [0.0]
強化学習(RL)アルゴリズムのディープニューラルネットワーク(NN)のスケーリングは、特徴抽出ネットワークを使用する場合のパフォーマンスを向上させることが示されている。先進RL法において,同時学習とプルーニングを併用する手法を提案する。
論文参考訳（メタデータ） (2025-07-16T07:17:41Z)
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-20T19:12:14Z)
GFlowNet Training by Policy Gradients [11.02335801879944]
我々は,従来の強化学習(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化する,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。
論文参考訳（メタデータ） (2024-08-12T01:24:49Z)
On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文参考訳（メタデータ） (2024-07-03T13:42:21Z)
Rectifying Reinforcement Learning for Reward Matching [12.294107455811496]
我々は,GFlowNetsと統一政策の政策評価の新たなつながりを確立する。本稿では,GFlowNetsと同じ報酬マッチング効果を達成できる新しいポリシー評価アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-04T11:11:53Z)
Evolution Guided Generative Flow Networks [11.609895436955242]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。 GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文参考訳（メタデータ） (2024-02-03T15:28:53Z)
Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文参考訳（メタデータ） (2023-10-05T09:53:22Z)
Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文参考訳（メタデータ） (2023-02-19T03:19:40Z)
Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文参考訳（メタデータ） (2023-02-11T22:06:17Z)
Learning GFlowNets from partial episodes for improved convergence and stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。 GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文参考訳（メタデータ） (2022-09-26T15:44:24Z)
Generative Flow Networks for Discrete Probabilistic Modeling [118.81967600750428]
エネルギーベース生成フローネットワーク(EB-GFN)について述べる。 EB-GFNは高次元離散データのための新しい確率論的モデリングアルゴリズムである。 GFlowNetsは、モード間を混在させるために、大ブロックギブスサンプリングを略して行うことができるかを示す。
論文参考訳（メタデータ） (2022-02-03T01:27:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。