論文の概要: CFlowNets: Continuous Control with Generative Flow Networks
- arxiv url: http://arxiv.org/abs/2303.02430v1
- Date: Sat, 4 Mar 2023 14:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:37:09.428452
- Title: CFlowNets: Continuous Control with Generative Flow Networks
- Title(参考訳): CFlowNets: 生成フローネットワークによる継続的制御
- Authors: Yinchuan Li, Shuang Luo, Haozhi Wang and Jianye Hao
- Abstract要約: 探索制御タスクの強化学習の代替として,ジェネレーティブフローネットワーク(GFlowNets)を用いることができる。
本稿では,連続制御タスクに適用可能な生成連続フローネットワーク(CFlowNets)を提案する。
- 参考スコア(独自算出の注目度): 23.093316128475564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative flow networks (GFlowNets), as an emerging technique, can be used
as an alternative to reinforcement learning for exploratory control tasks.
GFlowNet aims to generate distribution proportional to the rewards over
terminating states, and to sample different candidates in an active learning
fashion. GFlowNets need to form a DAG and compute the flow matching loss by
traversing the inflows and outflows of each node in the trajectory. No
experiments have yet concluded that GFlowNets can be used to handle continuous
tasks. In this paper, we propose generative continuous flow networks
(CFlowNets) that can be applied to continuous control tasks. First, we present
the theoretical formulation of CFlowNets. Then, a training framework for
CFlowNets is proposed, including the action selection process, the flow
approximation algorithm, and the continuous flow matching loss function.
Afterward, we theoretically prove the error bound of the flow approximation.
The error decreases rapidly as the number of flow samples increases. Finally,
experimental results on continuous control tasks demonstrate the performance
advantages of CFlowNets compared to many reinforcement learning methods,
especially regarding exploration ability.
- Abstract(参考訳): 創発的フローネットワーク(gflownets)は、探索的制御タスクのための強化学習の代替として使用できる。
GFlowNetは、終了状態よりも報酬に比例した分布を生成し、アクティブな学習方法で異なる候補をサンプリングすることを目的としている。
GFlowNetsはDAGを形成し、トラジェクトリ内の各ノードのインフローとアウトフローをトラバースすることでフローマッチング損失を計算する必要がある。
GFlowNetsが継続的タスクに使用できると結論づける実験はまだない。
本稿では,連続制御タスクに適用可能な生成型連続フローネットワーク(cflownets)を提案する。
まず,CFlowNetの理論的定式化について述べる。
次に,cflownetsのための学習フレームワークを提案する。アクション選択プロセス,フロー近似アルゴリズム,連続フローマッチング損失関数などだ。
その後、理論上は流れ近似の誤差境界が証明される。
フローサンプル数が増加すると、エラーは急速に減少する。
最後に、連続制御タスクの実験結果から、特に探索能力に関する強化学習法と比較して、CFlowNetsの性能上の利点を示す。
関連論文リスト
- Improving GFlowNets with Monte Carlo Tree Search [6.497027864860203]
近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。
我々はモンテカルロ木探索(MCTS)を適用してGFlowNetの計画能力を高めることを提案する。
実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。
論文 参考訳(メタデータ) (2024-06-19T15:58:35Z) - Evolution Guided Generative Flow Networks [11.609895436955242]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。
GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。
進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文 参考訳(メタデータ) (2024-02-03T15:28:53Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Expected flow networks in stochastic environments and two-player zero-sum games [63.98522423072093]
生成フローネットワーク(GFlowNets)は、所定の分布に合わせてトレーニングされた逐次サンプリングモデルである。
我々はGFlowNetsを環境に拡張する予測フローネットワーク(EFlowNets)を提案する。
本稿では,タンパク質設計などのタスクにおいて,EFlowNetが他のGFlowNetよりも優れていることを示す。
次に、EFlowNetsの概念を敵環境に拡張し、2プレイヤーゼロサムゲームのための敵フローネットワーク(AFlowNets)を提案する。
論文 参考訳(メタデータ) (2023-10-04T12:50:29Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - A theory of continuous generative flow networks [104.93913776866195]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、非正規化されたターゲット分布からサンプルを抽出するように訓練されたアモータイズされた変分推論アルゴリズムである。
本稿では、既存の離散GFlowNetと、連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案する。
論文 参考訳(メタデータ) (2023-01-30T00:37:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。