論文の概要: Thompson sampling for improved exploration in GFlowNets
- arxiv url: http://arxiv.org/abs/2306.17693v1
- Date: Fri, 30 Jun 2023 14:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:06:44.695656
- Title: Thompson sampling for improved exploration in GFlowNets
- Title(参考訳): GFlowNetsにおける探索改善のためのトンプソンサンプリング
- Authors: Jarrid Rector-Brooks, Kanika Madan, Moksh Jain, Maksym Korablyov,
Cheng-Hao Liu, Sarath Chandar, Nikolay Malkin, Yoshua Bengio
- Abstract要約: 生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
- 参考スコア(独自算出の注目度): 75.89693358516944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative flow networks (GFlowNets) are amortized variational inference
algorithms that treat sampling from a distribution over compositional objects
as a sequential decision-making problem with a learnable action policy. Unlike
other algorithms for hierarchical sampling that optimize a variational bound,
GFlowNet algorithms can stably run off-policy, which can be advantageous for
discovering modes of the target distribution. Despite this flexibility in the
choice of behaviour policy, the optimal way of efficiently selecting
trajectories for training has not yet been systematically explored. In this
paper, we view the choice of trajectories for training as an active learning
problem and approach it using Bayesian techniques inspired by methods for
multi-armed bandits. The proposed algorithm, Thompson sampling GFlowNets
(TS-GFN), maintains an approximate posterior distribution over policies and
samples trajectories from this posterior for training. We show in two domains
that TS-GFN yields improved exploration and thus faster convergence to the
target distribution than the off-policy exploration strategies used in past
work.
- Abstract(参考訳): 生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱うアモータイズされた変分推論アルゴリズムである。
変動境界を最適化する他の階層的サンプリングアルゴリズムとは異なり、GFlowNetアルゴリズムは安定してオフポリシーを走らせることができ、ターゲット分布のモードを発見するのに有利である。
このような行動方針の選択の柔軟性にもかかわらず、訓練のための軌道を効率的に選択する方法はまだ体系的に検討されていない。
本稿では,訓練用軌跡の選択を積極的学習問題として捉え,マルチアームバンディットの手法に着想を得たベイズ的手法を用いてアプローチする。
提案したアルゴリズムであるThompson sample GFlowNets (TS-GFN) は、この後部からのポリシーとサンプル軌跡に近似した後部分布をトレーニングのために維持する。
2つの領域において,ts-gfnにより探索が改善され,目的分布への収束が従来よりも早くなることを示した。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Calibrate and Debias Layer-wise Sampling for Graph Convolutional
Networks [39.56471534442315]
本稿では,行列近似の観点からアプローチを再考する。
本稿では,サンプリング確率と効率的なデバイアスアルゴリズムを構築するための新しい原理を提案する。
改良は、推定分散の広範囲な解析と、一般的なベンチマークの実験によって実証される。
論文 参考訳(メタデータ) (2022-06-01T15:52:06Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。