論文の概要: MG2FlowNet: Accelerating High-Reward Sample Generation via Enhanced MCTS and Greediness Control
- arxiv url: http://arxiv.org/abs/2510.00805v1
- Date: Wed, 01 Oct 2025 12:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.543768
- Title: MG2FlowNet: Accelerating High-Reward Sample Generation via Enhanced MCTS and Greediness Control
- Title(参考訳): MG2FlowNet:MCTSの強化とグリーネス制御による高次サンプル生成の高速化
- Authors: Rui Zhu, Xuan Yu, Yudong Zhang, Chen Zhang, Xu Wang, Yang Wang,
- Abstract要約: Generative Flow Networks (GFlowNets) は、与えられた報酬関数に比例した分布からサンプルを学習することで、多種多様な高次構造化オブジェクトを生成する強力なツールとして登場した。
本研究では,モンテカルロ木探索(MCTS)をGFlowNetsサンプリングプロセスに統合し,探索とエクスプロイトを適応的にバランスさせる。
本手法は,高次領域の発見速度を早めるだけでなく,生成分布の多様性を保ちながら,連続的に高次領域を生成できる。
- 参考スコア(独自算出の注目度): 19.49552596070782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Flow Networks (GFlowNets) have emerged as a powerful tool for generating diverse and high-reward structured objects by learning to sample from a distribution proportional to a given reward function. Unlike conventional reinforcement learning (RL) approaches that prioritize optimization of a single trajectory, GFlowNets seek to balance diversity and reward by modeling the entire trajectory distribution. This capability makes them especially suitable for domains such as molecular design and combinatorial optimization. However, existing GFlowNets sampling strategies tend to overexplore and struggle to consistently generate high-reward samples, particularly in large search spaces with sparse high-reward regions. Therefore, improving the probability of generating high-reward samples without sacrificing diversity remains a key challenge under this premise. In this work, we integrate an enhanced Monte Carlo Tree Search (MCTS) into the GFlowNets sampling process, using MCTS-based policy evaluation to guide the generation toward high-reward trajectories and Polynomial Upper Confidence Trees (PUCT) to balance exploration and exploitation adaptively, and we introduce a controllable mechanism to regulate the degree of greediness. Our method enhances exploitation without sacrificing diversity by dynamically balancing exploration and reward-driven guidance. The experimental results show that our method can not only accelerate the speed of discovering high-reward regions but also continuously generate high-reward samples, while preserving the diversity of the generative distribution. All implementations are available at https://github.com/ZRNB/MG2FlowNet.
- Abstract(参考訳): Generative Flow Networks (GFlowNets) は、与えられた報酬関数に比例した分布からサンプルを学習することで、多種多様な高次構造化オブジェクトを生成する強力なツールとして登場した。
単一軌道の最適化を優先する従来の強化学習(RL)アプローチとは異なり、GFlowNetsは全軌道分布をモデル化して多様性と報酬のバランスをとる。
この能力は分子設計や組合せ最適化のような領域に特に適している。
しかし、既存のGFlowNetsサンプリング戦略は、特に希薄な高次領域を持つ大規模検索空間において、過剰に発見され、常に高次サンプルを生成するのに苦労する傾向にある。
したがって、多様性を犠牲にすることなく高次サンプルを生成する確率を向上させることは、この前提の下では重要な課題である。
本研究では,モンテカルロ木探索(MCTS)をGFlowNetsサンプリングプロセスに統合し,MCTSに基づく政策評価を用いて,高次トラジェクトリへの生成を誘導し,PUCTを適応的に探索とエクスプロイトのバランスをとるとともに,グレディネスの度合いを調節する制御機構を導入する。
本手法は,探索と報酬駆動誘導を動的にバランスさせることにより,多様性を犠牲にすることなく活用を促進する。
実験結果から,本手法は高次領域の発見速度を加速するだけでなく,高次領域の分布の多様性を保ちながら,連続的に高次領域のサンプルを生成できることが示唆された。
すべての実装はhttps://github.com/ZRNB/MG2FlowNetで公開されている。
関連論文リスト
- Generative Diffusion Models for Resource Allocation in Wireless Networks [74.84410305593006]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。
生成したサンプルの逐次実行により,ほぼ最適性能を実現する。
電力制御のケーススタディにおいて数値的な結果を示す。
論文 参考訳(メタデータ) (2025-04-28T21:44:31Z) - Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、多種多様なハイリワード候補を生成する顕著な能力を示した。
しかし、そのようなモデルの訓練は、極めて少ない報酬のために困難である。
この問題を解決するために,textbfRetrospective textbfBackward textbfSynthesis (textbfRBS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T09:44:10Z) - Local Search GFlowNets [85.0053493167887]
Generative Flow Networks (GFlowNets) は、報酬に比例した離散オブジェクト上の分布を学習するアモータイズされたサンプリング手法である。
GFlowNetsは、多様なサンプルを生成する素晴らしい能力を示していますが、広いサンプル空間での過剰な探索のために、常に高い報酬を持つサンプルを生成するのに苦労することがあります。
本稿では,局所探索によるGFlowNetsの学習を提案する。
論文 参考訳(メタデータ) (2023-10-04T10:27:17Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。