論文の概要: Maximum entropy GFlowNets with soft Q-learning
- arxiv url: http://arxiv.org/abs/2312.14331v1
- Date: Thu, 21 Dec 2023 23:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:37:39.794625
- Title: Maximum entropy GFlowNets with soft Q-learning
- Title(参考訳): ソフトQ学習による最大エントロピーGFlowNets
- Authors: Sobhan Mohammadpour and Emmanuel Bengio and Emma Frejinger and
Pierre-Luc Bacon
- Abstract要約: 生成フローネットワーク(GFN)は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場した。
本稿では,GFNと最大エントロピー強化学習(RL)の関連性について,適切な報酬関数を構築することで検討する。
本研究では,一様後方ポリシを持つGFNとは対照的に,GFNが状態空間に制約を加えることなく達成できる最大エントロピーを実現するための最大エントロピーGFNを紹介する。
- 参考スコア(独自算出の注目度): 10.720104751551549
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Flow Networks (GFNs) have emerged as a powerful tool for sampling
discrete objects from unnormalized distributions, offering a scalable
alternative to Markov Chain Monte Carlo (MCMC) methods. While GFNs draw
inspiration from maximum entropy reinforcement learning (RL), the connection
between the two has largely been unclear and seemingly applicable only in
specific cases. This paper addresses the connection by constructing an
appropriate reward function, thereby establishing an exact relationship between
GFNs and maximum entropy RL. This construction allows us to introduce maximum
entropy GFNs, which, in contrast to GFNs with uniform backward policy, achieve
the maximum entropy attainable by GFNs without constraints on the state space.
- Abstract(参考訳): Generative Flow Networks (GFNs) は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場し、Markov Chain Monte Carlo (MCMC) 法に代わるスケーラブルな代替手段を提供している。
gfnsは最大エントロピー強化学習(rl)から着想を得ているが、この2つの関係は、特定のケースのみに適用できるため、ほとんど不明である。
本稿では,適切な報酬関数を構築することで,gfnsと最大エントロピーrlの正確な関係を確立する。
この構成により、一様後方方針を持つGFNとは対照的に、状態空間に制約を加えることなくGFNが達成できる最大エントロピーを実現することができる。
関連論文リスト
- Generalized Rényi entropy accumulation theorem and generalized quantum probability estimation [0.0]
エントロピー蓄積定理は、多くのデバイス依存およびデバイス非依存の暗号プロトコルのセキュリティ解析において強力なツールである。
Affine min-tradeoff関数の構築に依存しており、実際に最適に構築することはしばしば困難である。
新たにエントロピー蓄積境界が導出され,有限サイズ性能が著しく向上した。
論文 参考訳(メタデータ) (2024-05-09T17:11:00Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネル空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
我々は、$epsilon$-covering up $mathcalO(epsilon-frac2dd+2)$に対する計量エントロピーの改善結果を得る。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [90.83845885651986]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - QGFN: Controllable Greediness with Action Values [44.96595221174499]
我々は、GFNポリシーとアクション値の推定値である$Q$を組み合わせることで、よりグレディエなサンプリングポリシーを作成することを提案する。
提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。
論文 参考訳(メタデータ) (2024-02-07T20:14:22Z) - SymNMF-Net for The Symmetric NMF Problem [62.44067422984995]
我々は,Symmetric NMF問題に対するSymNMF-Netと呼ばれるニューラルネットワークを提案する。
各ブロックの推測は最適化の単一イテレーションに対応することを示す。
実世界のデータセットに関する実証的な結果は、我々のSymNMF-Netの優位性を示している。
論文 参考訳(メタデータ) (2022-05-26T08:17:39Z) - Log-based Sparse Nonnegative Matrix Factorization for Data
Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。
そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。
提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文 参考訳(メタデータ) (2022-04-22T11:38:10Z) - Deterministic Entanglement Transmission on Series-Parallel Quantum
Networks [2.86989372262348]
本稿では、ConPT(Concurrence Percolation Theory)と呼ばれる、QNの新しいより効果的なマッピングを探索し、増幅する。
我々は、抵抗ネットワーク解析と完全に類似した新しい決定論的絡み合い伝達方式により、ConPTを実装した。
DETは一般的なd-D情報キャリア向けに設計されており、任意のシリーズ並列QNに対してスケーラブルで適応可能であり、IBMの量子プラットフォームでテストされるように実験的に実現可能である。
論文 参考訳(メタデータ) (2021-10-11T03:29:03Z) - HEMP: High-order Entropy Minimization for neural network comPression [20.448617917261874]
我々は、量子化された人工ニューラルネットワークのエントロピーを、正規化項として、降下によって最小化されるコスト関数にプラグインできる微分可能な関数として定式化する。
HEMPは, モデル自体の刈り取りや定量化を目的とした他の手法と相乗効果があり, モデルの性能を損なうことなく, ストレージサイズ圧縮性の観点から大きなメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-07-12T10:17:53Z) - Computing conditional entropies for quantum correlations [10.549307055348596]
特に、デバイス非依存の量子鍵分布を実行するのに必要な、最小限の大域的検出効率について、新たな上限を求める。
正の整数に対するパラメータ $alpha_k = 1+frac12k-1$ を持つ反復平均量子 R'enyi の族を導入する。
この条件付きエントロピーは、デバイス非依存の最適化の文脈において、半定値プログラミング問題に緩和できる、特によい形式であることを示す。
論文 参考訳(メタデータ) (2020-07-24T15:27:51Z) - Learning Likelihoods with Conditional Normalizing Flows [54.60456010771409]
条件正規化フロー(CNF)はサンプリングと推論において効率的である。
出力空間写像に対する基底密度が入力 x 上で条件づけられた CNF について、条件密度 p(y|x) をモデル化する。
論文 参考訳(メタデータ) (2019-11-29T19:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。