論文の概要: Learning to Scale Logits for Temperature-Conditional GFlowNets
- arxiv url: http://arxiv.org/abs/2310.02823v1
- Date: Wed, 4 Oct 2023 13:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 14:47:36.680911
- Title: Learning to Scale Logits for Temperature-Conditional GFlowNets
- Title(参考訳): 温度条件型gflownetsのためのlogitsスケールの学習
- Authors: Minsu Kim, Joohwan Ko, Dinghuai Zhang, Ling Pan, Taeyoung Yun,
Woochang Kim, Jinkyoo Park, Yoshua Bengio
- Abstract要約: 温度条件付きGFlowNet(LSL-GFN)のための大規模ロジット学習を提案する。
LSL-GFNは、温度条件付きGFlowNetのトレーニングを大幅に加速する新しいアーキテクチャ設計である。
我々は,GFlowNetsの性能を劇的に向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 81.73584978767235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GFlowNets are probabilistic models that learn a stochastic policy that
sequentially generates compositional structures, such as molecular graphs. They
are trained with the objective of sampling such objects with probability
proportional to the object's reward. Among GFlowNets, the
temperature-conditional GFlowNets represent a family of policies indexed by
temperature, and each is associated with the correspondingly tempered reward
function. The major benefit of temperature-conditional GFlowNets is the
controllability of GFlowNets' exploration and exploitation through adjusting
temperature. We propose Learning to Scale Logits for temperature-conditional
GFlowNets (LSL-GFN), a novel architectural design that greatly accelerates the
training of temperature-conditional GFlowNets. It is based on the idea that
previously proposed temperature-conditioning approaches introduced numerical
challenges in the training of the deep network because different temperatures
may give rise to very different gradient profiles and ideal scales of the
policy's logits. We find that the challenge is greatly reduced if a learned
function of the temperature is used to scale the policy's logits directly. We
empirically show that our strategy dramatically improves the performances of
GFlowNets, outperforming other baselines, including reinforcement learning and
sampling methods, in terms of discovering diverse modes in multiple biochemical
tasks.
- Abstract(参考訳): GFlowNetは、分子グラフのような構成構造を逐次生成する確率的ポリシーを学ぶ確率論的モデルである。
それらは、オブジェクトの報酬に比例した確率でそのようなオブジェクトをサンプリングする目的で訓練される。
GFlowNetでは、温度条件付きGFlowNetは、温度によってインデックスされたポリシーの族を表し、それぞれが対応する誘引された報酬関数と関連付けられている。
温度条件GFlowNetsの大きな利点は、温度調整によるGFlowNetsの探索と利用の制御性である。
本稿では,温度条件付きGFlowNets(LSL-GFN)のためのLearning to Scale Logitsを提案する。
これは、以前提案された温度調和アプローチが、異なる温度が、ポリシーのロジットの非常に異なる勾配プロファイルと理想的なスケールをもたらす可能性があるため、ディープネットワークのトレーニングにおいて数値的な課題をもたらしたという考えに基づいている。
政策のロジットを直接スケールするために、温度の学習関数を使用する場合、課題は大幅に削減される。
複数の生化学タスクで多様なモードを発見するという観点から,強化学習やサンプリング手法など,他のベースラインを上回って,gflownetsの性能を劇的に向上させる戦略を実証的に示した。
関連論文リスト
- Improving GFlowNets with Monte Carlo Tree Search [6.497027864860203]
近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。
我々はモンテカルロ木探索(MCTS)を適用してGFlowNetの計画能力を高めることを提案する。
実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。
論文 参考訳(メタデータ) (2024-06-19T15:58:35Z) - Investigating Generalization Behaviours of Generative Flow Networks [3.4642376250601017]
GFlowNetの一般化の仮説的なメカニズムを実証的に検証する。
GFlowNetsが近似的に学習する関数は、一般化を促進する暗黙の基盤構造を持つ。
また、GFlowNetsはオフラインおよび非政治のトレーニングに敏感であることもわかっていますが、GFlowNetsが暗黙的に学んだ報酬は、トレーニングディストリビューションの変更に対して堅牢です。
論文 参考訳(メタデータ) (2024-02-07T23:02:53Z) - Learning Energy Decompositions for Partial Inference of GFlowNets [34.209530834968206]
本稿では, ボルツマンエネルギー分布から生成フローネットワーク(GFlowNets)を解析し, 一連の動作を通して物体をサンプリングする。
特に、部分推論によるGFlowNetの改善に焦点を当て、中間状態や遷移の評価によるフロー関数のトレーニングを行う。
論文 参考訳(メタデータ) (2023-10-05T04:02:36Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - A theory of continuous generative flow networks [104.93913776866195]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、非正規化されたターゲット分布からサンプルを抽出するように訓練されたアモータイズされた変分推論アルゴリズムである。
本稿では、既存の離散GFlowNetと、連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案する。
論文 参考訳(メタデータ) (2023-01-30T00:37:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Generative Flow Networks for Discrete Probabilistic Modeling [118.81967600750428]
エネルギーベース生成フローネットワーク(EB-GFN)について述べる。
EB-GFNは高次元離散データのための新しい確率論的モデリングアルゴリズムである。
GFlowNetsは、モード間を混在させるために、大ブロックギブスサンプリングを略して行うことができるかを示す。
論文 参考訳(メタデータ) (2022-02-03T01:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。