論文の概要: Maximum entropy GFlowNets with soft Q-learning
- arxiv url: http://arxiv.org/abs/2312.14331v2
- Date: Thu, 2 May 2024 09:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 22:00:43.127955
- Title: Maximum entropy GFlowNets with soft Q-learning
- Title(参考訳): ソフトQ-ラーニングによる最大エントロピーGFlowNets
- Authors: Sobhan Mohammadpour, Emmanuel Bengio, Emma Frejinger, Pierre-Luc Bacon,
- Abstract要約: 生成フローネットワーク(GFN)は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場した。
本稿では,GFNと最大エントロピー強化学習(RL)の関連性について,適切な報酬関数を構築することで検討する。
本研究では,一様後方ポリシを持つGFNとは対照的に,GFNが状態空間に制約を加えることなく達成できる最大エントロピーを実現するための最大エントロピーGFNを紹介する。
- 参考スコア(独自算出の注目度): 9.813098141615933
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Flow Networks (GFNs) have emerged as a powerful tool for sampling discrete objects from unnormalized distributions, offering a scalable alternative to Markov Chain Monte Carlo (MCMC) methods. While GFNs draw inspiration from maximum entropy reinforcement learning (RL), the connection between the two has largely been unclear and seemingly applicable only in specific cases. This paper addresses the connection by constructing an appropriate reward function, thereby establishing an exact relationship between GFNs and maximum entropy RL. This construction allows us to introduce maximum entropy GFNs, which, in contrast to GFNs with uniform backward policy, achieve the maximum entropy attainable by GFNs without constraints on the state space.
- Abstract(参考訳): Generative Flow Networks (GFNs) は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場し、Markov Chain Monte Carlo (MCMC) 法に代わるスケーラブルな代替手段を提供している。
GFNは最大エントロピー強化学習(英語版)(英語版) (RL) からインスピレーションを得ているが、両者のつながりは明らかになっていない。
本稿では、適切な報酬関数を構築し、GFNと最大エントロピーRLの正確な関係を確立することにより、接続に対処する。
この構成により、一様後方方針を持つGFNとは対照的に、状態空間に制約を加えることなくGFNが達成できる最大エントロピーを実現することができる。
関連論文リスト
- Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - Large data limits and scaling laws for tSNE [1.2085509610251701]
元の tSNE アルゴリズムの埋め込みは、$n から in$ への一貫した極限を持たないことを示す。
本稿では、魅力的なエネルギーの減衰を緩和し、一貫した極限を持つ再スケールモデルを提案する。
論文 参考訳(メタデータ) (2024-10-16T21:43:02Z) - Freya PAGE: First Optimal Time Complexity for Large-Scale Nonconvex Finite-Sum Optimization with Heterogeneous Asynchronous Computations [92.1840862558718]
実用的な分散システムでは、労働者は概して均質ではなく、非常に多様な処理時間を持つ。
本稿では、任意に遅い計算を扱うための新しい並列手法Freyaを提案する。
Freyaは従来の手法と比較して,複雑性の保証が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2024-05-24T13:33:30Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - QGFN: Controllable Greediness with Action Values [41.912776050779854]
我々は、GFNポリシーとアクション値の推定値である$Q$を組み合わせることで、よりグレディエなサンプリングポリシーを作成することを提案する。
提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。
論文 参考訳(メタデータ) (2024-02-07T20:14:22Z) - ResNorm: Tackling Long-tailed Degree Distribution Issue in Graph Neural
Networks via Normalization [80.90206641975375]
本稿では,正規化によるGNNの性能向上に焦点をあてる。
グラフ中のノード次数の長期分布を調べることにより、GNNの新しい正規化法を提案する。
ResNormの$scale$操作は、尾ノードの精度を向上させるために、ノード単位の標準偏差(NStd)分布を再設定する。
論文 参考訳(メタデータ) (2022-06-16T13:49:09Z) - SymNMF-Net for The Symmetric NMF Problem [62.44067422984995]
我々は,Symmetric NMF問題に対するSymNMF-Netと呼ばれるニューラルネットワークを提案する。
各ブロックの推測は最適化の単一イテレーションに対応することを示す。
実世界のデータセットに関する実証的な結果は、我々のSymNMF-Netの優位性を示している。
論文 参考訳(メタデータ) (2022-05-26T08:17:39Z) - Log-based Sparse Nonnegative Matrix Factorization for Data
Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。
そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。
提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文 参考訳(メタデータ) (2022-04-22T11:38:10Z) - Deterministic Entanglement Transmission on Series-Parallel Quantum
Networks [2.86989372262348]
本稿では、ConPT(Concurrence Percolation Theory)と呼ばれる、QNの新しいより効果的なマッピングを探索し、増幅する。
我々は、抵抗ネットワーク解析と完全に類似した新しい決定論的絡み合い伝達方式により、ConPTを実装した。
DETは一般的なd-D情報キャリア向けに設計されており、任意のシリーズ並列QNに対してスケーラブルで適応可能であり、IBMの量子プラットフォームでテストされるように実験的に実現可能である。
論文 参考訳(メタデータ) (2021-10-11T03:29:03Z) - HEMP: High-order Entropy Minimization for neural network comPression [20.448617917261874]
我々は、量子化された人工ニューラルネットワークのエントロピーを、正規化項として、降下によって最小化されるコスト関数にプラグインできる微分可能な関数として定式化する。
HEMPは, モデル自体の刈り取りや定量化を目的とした他の手法と相乗効果があり, モデルの性能を損なうことなく, ストレージサイズ圧縮性の観点から大きなメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-07-12T10:17:53Z) - Learning Likelihoods with Conditional Normalizing Flows [54.60456010771409]
条件正規化フロー(CNF)はサンプリングと推論において効率的である。
出力空間写像に対する基底密度が入力 x 上で条件づけられた CNF について、条件密度 p(y|x) をモデル化する。
論文 参考訳(メタデータ) (2019-11-29T19:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。