論文の概要: MetaGFN: Exploring Distant Modes with Adapted Metadynamics for Continuous GFlowNets
- arxiv url: http://arxiv.org/abs/2408.15905v1
- Date: Wed, 28 Aug 2024 16:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:21:26.827951
- Title: MetaGFN: Exploring Distant Modes with Adapted Metadynamics for Continuous GFlowNets
- Title(参考訳): MetaGFN: 連続GFlowNetのための適応メタ力学を用いた距離モード探索
- Authors: Dominic Phillips, Flaviu Cipcigan,
- Abstract要約: 本稿では,連続ドメイン上の任意のブラックボックス報酬関数に適用可能なメタ力学の変種であるAdapted Metadynamicsを紹介する。
結果のアルゴリズムであるMetaGFNは、目標分布への収束を加速し、GFlowNetsの以前のオフポリティクス探索戦略よりも遠い報酬モードを発見する3つの連続領域を示す。
- 参考スコア(独自算出の注目度): 1.892757060653176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Flow Networks (GFlowNets) are a class of generative models that sample objects in proportion to a specified reward function through a learned policy. They can be trained either on-policy or off-policy, needing a balance between exploration and exploitation for fast convergence to a target distribution. While exploration strategies for discrete GFlowNets have been studied, exploration in the continuous case remains to be investigated, despite the potential for novel exploration algorithms due to the local connectedness of continuous domains. Here, we introduce Adapted Metadynamics, a variant of metadynamics that can be applied to arbitrary black-box reward functions on continuous domains. We use Adapted Metadynamics as an exploration strategy for continuous GFlowNets. We show three continuous domains where the resulting algorithm, MetaGFN, accelerates convergence to the target distribution and discovers more distant reward modes than previous off-policy exploration strategies used for GFlowNets.
- Abstract(参考訳): ジェネレーティブ・フロー・ネットワーク(Generative Flow Networks、GFlowNets)は、学習ポリシーを通じて特定の報酬関数に比例してオブジェクトをサンプリングする生成モデルのクラスである。
それらは、オン・ポリティクスまたはオフ・ポリティシーのどちらかで訓練することができ、ターゲットの分布に迅速に収束するために、探索と搾取のバランスを必要とする。
離散的なGFlowNetの探索戦略が研究されているが、連続領域の局所接続性による新しい探索アルゴリズムの可能性にもかかわらず、連続領域での探索は検討されていない。
本稿では,連続ドメイン上の任意のブラックボックス報酬関数に適用可能なメタ力学の変種であるAdapted Metadynamicsを紹介する。
我々は、継続的GFlowNetの探索戦略としてAdapted Metadynamicsを使用します。
結果のアルゴリズムであるMetaGFNは、目標分布への収束を加速し、GFlowNetsの以前のオフポリティクス探索戦略よりも遠い報酬モードを発見する3つの連続領域を示す。
関連論文リスト
- On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。
本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文 参考訳(メタデータ) (2024-07-03T13:42:21Z) - Pessimistic Backward Policy for GFlowNets [40.00805723326561]
本稿では,与えられた報酬関数に比例してオブジェクトをサンプリングする生成フローネットワーク(GFlowNets)について検討する。
本研究では,GFlowNetが低軌道の訓練により,高逆対象を過小評価する傾向にあることを示す。
本稿では,GFlowNetsに対する悲観的なバックワードポリシーを提案し,観測されたフローを最大化し,オブジェクトに対する真の報酬と密接に一致させる。
論文 参考訳(メタデータ) (2024-05-25T02:30:46Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Meta Generative Flow Networks with Personalization for Task-Specific
Adaptation [8.830531142309733]
マルチタスク強化学習とメタ強化学習は、より高い報酬とより頻繁な出来事を伴うタスクに焦点を当てる傾向がある。
GFlowNetsは、低報酬のタスクでGFlowNetsの利点を活用することで、メタ学習アルゴリズム(GFlowMeta)に統合することができる。
本稿では、タスク固有のパーソナライズされたポリシーとメタポリシーを組み合わせた、pGFlowMetaというパーソナライズされたアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-16T10:18:38Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Trajectory balance: Improved credit assignment in GFlowNets [63.687669765579585]
従来提案したGFlowNetの学習目標,フローマッチング,詳細なバランスは,長いアクションシーケンスをまたいだ非効率な信用伝播の傾向が示唆された。
本稿では,GFlowNetsの新しい学習目標であるトラジェクトリバランスを,従来使用されていた目的に対して,より効率的な代替手段として提案する。
4つの異なる領域の実験において、GFlowNet収束のための軌道バランス目標の利点、生成されたサンプルの多様性、長いアクションシーケンスや大きなアクション空間に対する堅牢性を実証的に実証した。
論文 参考訳(メタデータ) (2022-01-31T14:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。