論文の概要: Learning to Scale Logits for Temperature-Conditional GFlowNets
- arxiv url: http://arxiv.org/abs/2310.02823v3
- Date: Sun, 2 Jun 2024 05:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:50:48.264313
- Title: Learning to Scale Logits for Temperature-Conditional GFlowNets
- Title(参考訳): 温度依存型GFlowNetにおけるログのスケール学習
- Authors: Minsu Kim, Joohwan Ko, Taeyoung Yun, Dinghuai Zhang, Ling Pan, Woochang Kim, Jinkyoo Park, Emmanuel Bengio, Yoshua Bengio,
- Abstract要約: 温度条件付きGFlowNetのトレーニングを大幅に高速化する新しいアーキテクチャ設計である textitLogit-scaling GFlowNets (Logit-GFN) を提案する。
温度の学習関数がポリシーのロジットを直接スケールするために使用されると、課題は大幅に減少する。
- 参考スコア(独自算出の注目度): 77.36931187299896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GFlowNets are probabilistic models that sequentially generate compositional structures through a stochastic policy. Among GFlowNets, temperature-conditional GFlowNets can introduce temperature-based controllability for exploration and exploitation. We propose \textit{Logit-scaling GFlowNets} (Logit-GFN), a novel architectural design that greatly accelerates the training of temperature-conditional GFlowNets. It is based on the idea that previously proposed approaches introduced numerical challenges in the deep network training, since different temperatures may give rise to very different gradient profiles as well as magnitudes of the policy's logits. We find that the challenge is greatly reduced if a learned function of the temperature is used to scale the policy's logits directly. Also, using Logit-GFN, GFlowNets can be improved by having better generalization capabilities in offline learning and mode discovery capabilities in online learning, which is empirically verified in various biological and chemical tasks. Our code is available at \url{https://github.com/dbsxodud-11/logit-gfn}
- Abstract(参考訳): GFlowNetsは確率的ポリシーによって連続的に構成構造を生成する確率論的モデルである。
GFlowNetsの中では、温度条件付きGFlowNetsは、探索と利用のための温度ベースの制御性を導入することができる。
温度条件付きGFlowNetのトレーニングを大幅に高速化する新しいアーキテクチャ設計であるGFlowNets(Logit-GFN)を提案する。
以前提案されたアプローチは、異なる温度が、ポリシーのロジットの規模だけでなく、非常に異なる勾配プロファイルをもたらす可能性があるため、ディープ・ネットワーク・トレーニングにおいて数値的な課題を導入したという考え方に基づいている。
温度の学習関数がポリシーのロジットを直接スケールするために使用されると、課題は大幅に減少する。
また、Logit-GFNを使用することで、オフライン学習における一般化機能とオンライン学習におけるモード発見機能により、GFlowNetsが改善される。
我々のコードは \url{https://github.com/dbsxodud-11/logit-gfn} で入手できる。
関連論文リスト
- Improving GFlowNets with Monte Carlo Tree Search [6.497027864860203]
近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。
我々はモンテカルロ木探索(MCTS)を適用してGFlowNetの計画能力を高めることを提案する。
実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。
論文 参考訳(メタデータ) (2024-06-19T15:58:35Z) - Investigating Generalization Behaviours of Generative Flow Networks [3.4642376250601017]
GFlowNetの一般化の仮説的なメカニズムを実証的に検証する。
GFlowNetsが近似的に学習する関数は、一般化を促進する暗黙の基盤構造を持つ。
また、GFlowNetsはオフラインおよび非政治のトレーニングに敏感であることもわかっていますが、GFlowNetsが暗黙的に学んだ報酬は、トレーニングディストリビューションの変更に対して堅牢です。
論文 参考訳(メタデータ) (2024-02-07T23:02:53Z) - Learning Energy Decompositions for Partial Inference of GFlowNets [34.209530834968206]
本稿では, ボルツマンエネルギー分布から生成フローネットワーク(GFlowNets)を解析し, 一連の動作を通して物体をサンプリングする。
特に、部分推論によるGFlowNetの改善に焦点を当て、中間状態や遷移の評価によるフロー関数のトレーニングを行う。
論文 参考訳(メタデータ) (2023-10-05T04:02:36Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - A theory of continuous generative flow networks [104.93913776866195]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、非正規化されたターゲット分布からサンプルを抽出するように訓練されたアモータイズされた変分推論アルゴリズムである。
本稿では、既存の離散GFlowNetと、連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案する。
論文 参考訳(メタデータ) (2023-01-30T00:37:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Generative Flow Networks for Discrete Probabilistic Modeling [118.81967600750428]
エネルギーベース生成フローネットワーク(EB-GFN)について述べる。
EB-GFNは高次元離散データのための新しい確率論的モデリングアルゴリズムである。
GFlowNetsは、モード間を混在させるために、大ブロックギブスサンプリングを略して行うことができるかを示す。
論文 参考訳(メタデータ) (2022-02-03T01:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。