論文の概要: Distributional GFlowNets with Quantile Flows
- arxiv url: http://arxiv.org/abs/2302.05793v3
- Date: Sat, 17 Feb 2024 16:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 07:22:35.100184
- Title: Distributional GFlowNets with Quantile Flows
- Title(参考訳): 分位流を伴う分布型グフローネット
- Authors: Dinghuai Zhang, Ling Pan, Ricky T. Q. Chen, Aaron Courville, Yoshua
Bengio
- Abstract要約: Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
- 参考スコア(独自算出の注目度): 73.73721901056662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Flow Networks (GFlowNets) are a new family of probabilistic
samplers where an agent learns a stochastic policy for generating complex
combinatorial structure through a series of decision-making steps. Despite
being inspired from reinforcement learning, the current GFlowNet framework is
relatively limited in its applicability and cannot handle stochasticity in the
reward function. In this work, we adopt a distributional paradigm for
GFlowNets, turning each flow function into a distribution, thus providing more
informative learning signals during training. By parameterizing each edge flow
through their quantile functions, our proposed \textit{quantile matching}
GFlowNet learning algorithm is able to learn a risk-sensitive policy, an
essential component for handling scenarios with risk uncertainty. Moreover, we
find that the distributional approach can achieve substantial improvement on
existing benchmarks compared to prior methods due to our enhanced training
algorithm, even in settings with deterministic rewards.
- Abstract(参考訳): Generative Flow Networks (GFlowNets) は、エージェントが一連の意思決定ステップを通じて複雑な組合せ構造を生成する確率的ポリシーを学ぶ確率的サンプルの新たなファミリーである。
強化学習にインスパイアされたものの、現在のGFlowNetフレームワークの適用性は比較的限られており、報酬関数の確率性は扱えない。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
各エッジフローを分位関数を通じてパラメータ化することにより,提案するgflownet学習アルゴリズムは,リスク不確実性を持つシナリオを扱う上で不可欠な,リスクに敏感なポリシを学習することができる。
さらに, 従来の手法と比較して, 決定論的報酬のある設定においても, 従来の手法と比較して, 分布的アプローチが大幅に改善できることが判明した。
関連論文リスト
- On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。
本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文 参考訳(メタデータ) (2024-07-03T13:42:21Z) - Generative Flow Networks as Entropy-Regularized RL [4.857649518812728]
生成フローネットワーク(ジェネレーティブフローネットワーク、英:generative flow network、GFlowNets)は、一連の行動を通じて与えられた報酬に比例確率を持つ合成対象をサンプリングするためのポリシーを訓練する手法である。
生成フローネットワークの学習作業は,エントロピー規則化強化学習問題として効率的に行うことができることを示す。
先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-19T17:31:40Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Generative Flow Networks for Precise Reward-Oriented Active Learning on
Graphs [34.76241250013461]
本稿では,グラフ能動学習問題をGFlowGNNと呼ばれる生成過程として定式化し,逐次動作によって様々なサンプルを生成する。
提案手法は,様々な最先端手法よりも優れた探索能力と伝達性を有することを示す。
論文 参考訳(メタデータ) (2023-04-24T10:47:08Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。