Fugu-MT 論文翻訳(概要): Improving GFlowNets with Monte Carlo Tree Search

論文の概要: Improving GFlowNets with Monte Carlo Tree Search

arxiv url: http://arxiv.org/abs/2406.13655v1
Date: Wed, 19 Jun 2024 15:58:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 19:04:39.348457
Title: Improving GFlowNets with Monte Carlo Tree Search
Title（参考訳）: Monte Carlo Tree SearchによるGFlowNetsの改善
Authors: Nikita Morozov, Daniil Tiapkin, Sergey Samsonov, Alexey Naumov, Dmitry Vetrov,
Abstract要約: 近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。我々はモンテカルロ木探索(MCTS)を適用してGFlowNetの計画能力を高めることを提案する。実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。
参考スコア（独自算出の注目度）: 6.497027864860203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative Flow Networks (GFlowNets) treat sampling from distributions over compositional discrete spaces as a sequential decision-making problem, training a stochastic policy to construct objects step by step. Recent studies have revealed strong connections between GFlowNets and entropy-regularized reinforcement learning. Building on these insights, we propose to enhance planning capabilities of GFlowNets by applying Monte Carlo Tree Search (MCTS). Specifically, we show how the MENTS algorithm (Xiao et al., 2019) can be adapted for GFlowNets and used during both training and inference. Our experiments demonstrate that this approach improves the sample efficiency of GFlowNet training and the generation fidelity of pre-trained GFlowNet models.
Abstract（参考訳）: Generative Flow Networks (GFlowNets) は、合成離散空間上の分布からのサンプリングを逐次決定問題として扱い、段階的にオブジェクトを構築するための確率的ポリシーを訓練する。近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。これらの知見に基づいて,モンテカルロ木探索(MCTS)を適用し,GFlowNetsの計画能力を高めることを提案する。具体的には、MENTSアルゴリズム(Xiao et al , 2019)がGFlowNetにどのように適応し、トレーニングと推論の両方に使用されるかを示す。実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。

関連論文リスト

GFlowNet Training by Policy Gradients [11.02335801879944]
我々は,従来の強化学習(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化する,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。
論文参考訳（メタデータ） (2024-08-12T01:24:49Z)
Evolution Guided Generative Flow Networks [11.609895436955242]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。 GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文参考訳（メタデータ） (2024-02-03T15:28:53Z)
Generative Flow Networks as Entropy-Regularized RL [4.857649518812728]
生成フローネットワーク(ジェネレーティブフローネットワーク、英:generative flow network、GFlowNets)は、一連の行動を通じて与えられた報酬に比例確率を持つ合成対象をサンプリングするためのポリシーを訓練する手法である。生成フローネットワークの学習作業は,エントロピー規則化強化学習問題として効率的に行うことができることを示す。先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。
論文参考訳（メタデータ） (2023-10-19T17:31:40Z)
Learning to Scale Logits for Temperature-Conditional GFlowNets [77.36931187299896]
温度条件付きGFlowNetのトレーニングを大幅に高速化する新しいアーキテクチャ設計である textitLogit-scaling GFlowNets (Logit-GFN) を提案する。温度の学習関数がポリシーのロジットを直接スケールするために使用されると、課題は大幅に減少する。
論文参考訳（メタデータ） (2023-10-04T13:45:56Z)
CFlowNets: Continuous Control with Generative Flow Networks [23.093316128475564]
探索制御タスクの強化学習の代替として,ジェネレーティブフローネットワーク(GFlowNets)を用いることができる。本稿では,連続制御タスクに適用可能な生成連続フローネットワーク(CFlowNets)を提案する。
論文参考訳（メタデータ） (2023-03-04T14:37:47Z)
Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文参考訳（メタデータ） (2023-02-19T03:19:40Z)
Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文参考訳（メタデータ） (2023-02-11T22:06:17Z)
A theory of continuous generative flow networks [104.93913776866195]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、非正規化されたターゲット分布からサンプルを抽出するように訓練されたアモータイズされた変分推論アルゴリズムである。本稿では、既存の離散GFlowNetと、連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案する。
論文参考訳（メタデータ） (2023-01-30T00:37:56Z)
Learning GFlowNets from partial episodes for improved convergence and stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。 GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文参考訳（メタデータ） (2022-09-26T15:44:24Z)
Generative Flow Networks for Discrete Probabilistic Modeling [118.81967600750428]
エネルギーベース生成フローネットワーク(EB-GFN)について述べる。 EB-GFNは高次元離散データのための新しい確率論的モデリングアルゴリズムである。 GFlowNetsは、モード間を混在させるために、大ブロックギブスサンプリングを略して行うことができるかを示す。
論文参考訳（メタデータ） (2022-02-03T01:27:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。