Fugu-MT 論文翻訳(概要): Maximum entropy GFlowNets with soft Q-learning

論文の概要: Maximum entropy GFlowNets with soft Q-learning

arxiv url: http://arxiv.org/abs/2312.14331v1
Date: Thu, 21 Dec 2023 23:31:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 16:37:39.794625
Title: Maximum entropy GFlowNets with soft Q-learning
Title（参考訳）: ソフトQ学習による最大エントロピーGFlowNets
Authors: Sobhan Mohammadpour and Emmanuel Bengio and Emma Frejinger and Pierre-Luc Bacon
Abstract要約: 生成フローネットワーク(GFN)は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場した。本稿では,GFNと最大エントロピー強化学習(RL)の関連性について,適切な報酬関数を構築することで検討する。本研究では,一様後方ポリシを持つGFNとは対照的に,GFNが状態空間に制約を加えることなく達成できる最大エントロピーを実現するための最大エントロピーGFNを紹介する。
参考スコア（独自算出の注目度）: 10.720104751551549
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative Flow Networks (GFNs) have emerged as a powerful tool for sampling discrete objects from unnormalized distributions, offering a scalable alternative to Markov Chain Monte Carlo (MCMC) methods. While GFNs draw inspiration from maximum entropy reinforcement learning (RL), the connection between the two has largely been unclear and seemingly applicable only in specific cases. This paper addresses the connection by constructing an appropriate reward function, thereby establishing an exact relationship between GFNs and maximum entropy RL. This construction allows us to introduce maximum entropy GFNs, which, in contrast to GFNs with uniform backward policy, achieve the maximum entropy attainable by GFNs without constraints on the state space.
Abstract（参考訳）: Generative Flow Networks (GFNs) は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場し、Markov Chain Monte Carlo (MCMC) 法に代わるスケーラブルな代替手段を提供している。 gfnsは最大エントロピー強化学習(rl)から着想を得ているが、この2つの関係は、特定のケースのみに適用できるため、ほとんど不明である。本稿では,適切な報酬関数を構築することで,gfnsと最大エントロピーrlの正確な関係を確立する。この構成により、一様後方方針を持つGFNとは対照的に、状態空間に制約を加えることなくGFNが達成できる最大エントロピーを実現することができる。

関連論文リスト

Signal from Structure: Exploiting Submodular Upper Bounds in Generative Flow Networks [46.163790471001484]
我々は、まだ観測されていない構成対象の報酬の上限を求めるために、部分モジュラリティを利用することができることを示した。サブモジュラー上界を用いてGFNを訓練するSUBo-GFNを導入する。我々は, SUBo-GFN が古典的な GFN よりも, 報酬関数に対する同じクエリ数に対して, 桁違いに多くのトレーニングデータを生成することを示す。
論文参考訳（メタデータ） (2026-01-28T21:34:01Z)
Partitioning Message Passing for Graph Fraud Detection [57.928658584067556]
グラフフラッド検出(GFD)タスクにグラフニューラルネットワーク(GNN)を適用する場合、ラベルの不均衡とホモフィリー・ヘテロフィリー混合が直面する根本的な問題である。既存のGNNベースのGFDモデルは、GNNのホモフィリーへの帰納バイアスに対応するためにグラフ構造を拡張するように設計されている。我々の研究では、GFDにGNNを適用する鍵は除外するのではなく、異なるラベルを持つ隣人を区別することにあると論じている。
論文参考訳（メタデータ） (2024-11-16T11:30:53Z)
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-20T19:12:14Z)
Large data limits and scaling laws for tSNE [1.2085509610251701]
元の tSNE アルゴリズムの埋め込みは、$n から in$ への一貫した極限を持たないことを示す。本稿では、魅力的なエネルギーの減衰を緩和し、一貫した極限を持つ再スケールモデルを提案する。
論文参考訳（メタデータ） (2024-10-16T21:43:02Z)
Freya PAGE: First Optimal Time Complexity for Large-Scale Nonconvex Finite-Sum Optimization with Heterogeneous Asynchronous Computations [92.1840862558718]
実用的な分散システムでは、労働者は概して均質ではなく、非常に多様な処理時間を持つ。本稿では、任意に遅い計算を扱うための新しい並列手法Freyaを提案する。 Freyaは従来の手法と比較して,複雑性の保証が大幅に向上していることを示す。
論文参考訳（メタデータ） (2024-05-24T13:33:30Z)
Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文参考訳（メタデータ） (2024-02-15T20:20:35Z)
QGFN: Controllable Greediness with Action Values [41.912776050779854]
我々は、GFNポリシーとアクション値の推定値である$Q$を組み合わせることで、よりグレディエなサンプリングポリシーを作成することを提案する。提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。
論文参考訳（メタデータ） (2024-02-07T20:14:22Z)
ResNorm: Tackling Long-tailed Degree Distribution Issue in Graph Neural Networks via Normalization [80.90206641975375]
本稿では,正規化によるGNNの性能向上に焦点をあてる。グラフ中のノード次数の長期分布を調べることにより、GNNの新しい正規化法を提案する。 ResNormの$scale$操作は、尾ノードの精度を向上させるために、ノード単位の標準偏差(NStd)分布を再設定する。
論文参考訳（メタデータ） (2022-06-16T13:49:09Z)
SymNMF-Net for The Symmetric NMF Problem [62.44067422984995]
我々は,Symmetric NMF問題に対するSymNMF-Netと呼ばれるニューラルネットワークを提案する。各ブロックの推測は最適化の単一イテレーションに対応することを示す。実世界のデータセットに関する実証的な結果は、我々のSymNMF-Netの優位性を示している。
論文参考訳（メタデータ） (2022-05-26T08:17:39Z)
Log-based Sparse Nonnegative Matrix Factorization for Data Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文参考訳（メタデータ） (2022-04-22T11:38:10Z)
Deterministic Entanglement Transmission on Series-Parallel Quantum Networks [2.86989372262348]
本稿では、ConPT(Concurrence Percolation Theory)と呼ばれる、QNの新しいより効果的なマッピングを探索し、増幅する。我々は、抵抗ネットワーク解析と完全に類似した新しい決定論的絡み合い伝達方式により、ConPTを実装した。 DETは一般的なd-D情報キャリア向けに設計されており、任意のシリーズ並列QNに対してスケーラブルで適応可能であり、IBMの量子プラットフォームでテストされるように実験的に実現可能である。
論文参考訳（メタデータ） (2021-10-11T03:29:03Z)
HEMP: High-order Entropy Minimization for neural network comPression [20.448617917261874]
我々は、量子化された人工ニューラルネットワークのエントロピーを、正規化項として、降下によって最小化されるコスト関数にプラグインできる微分可能な関数として定式化する。 HEMPは, モデル自体の刈り取りや定量化を目的とした他の手法と相乗効果があり, モデルの性能を損なうことなく, ストレージサイズ圧縮性の観点から大きなメリットが得られることを示す。
論文参考訳（メタデータ） (2021-07-12T10:17:53Z)
Learning Likelihoods with Conditional Normalizing Flows [54.60456010771409]
条件正規化フロー(CNF)はサンプリングと推論において効率的である。出力空間写像に対する基底密度が入力 x 上で条件づけられた CNF について、条件密度 p(y|x) をモデル化する。
論文参考訳（メタデータ） (2019-11-29T19:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。