論文の概要: QGFN: Controllable Greediness with Action Values
- arxiv url: http://arxiv.org/abs/2402.05234v3
- Date: Fri, 01 Nov 2024 04:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 21:01:08.981169
- Title: QGFN: Controllable Greediness with Action Values
- Title(参考訳): QGFN:アクション値によるコントロール可能なグレディネス
- Authors: Elaine Lau, Stephen Zhewen Lu, Ling Pan, Doina Precup, Emmanuel Bengio,
- Abstract要約: 我々は、GFNポリシーとアクション値の推定値である$Q$を組み合わせることで、よりグレディエなサンプリングポリシーを作成することを提案する。
提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。
- 参考スコア(独自算出の注目度): 41.912776050779854
- License:
- Abstract: Generative Flow Networks (GFlowNets; GFNs) are a family of energy-based generative methods for combinatorial objects, capable of generating diverse and high-utility samples. However, consistently biasing GFNs towards producing high-utility samples is non-trivial. In this work, we leverage connections between GFNs and reinforcement learning (RL) and propose to combine the GFN policy with an action-value estimate, $Q$, to create greedier sampling policies which can be controlled by a mixing parameter. We show that several variants of the proposed method, QGFN, are able to improve on the number of high-reward samples generated in a variety of tasks without sacrificing diversity.
- Abstract(参考訳): Generative Flow Networks (GFlowNets; GFNs) は、多種多様な高ユーティリティなサンプルを生成することができる、組合せオブジェクトのためのエネルギーベースの生成手法のファミリーである。
しかし、一貫してGFNを高実用性サンプルに偏見付けることは簡単ではない。
本研究では、GFNと強化学習(RL)の接続を活用し、GFNポリシーをアクション値の推定値である$Q$と組み合わせて、混合パラメータで制御可能なグリーディエサンプリングポリシーを作成することを提案する。
提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。
関連論文リスト
- BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Pessimistic Backward Policy for GFlowNets [40.00805723326561]
本稿では,与えられた報酬関数に比例してオブジェクトをサンプリングする生成フローネットワーク(GFlowNets)について検討する。
本研究では,GFlowNetが低軌道の訓練により,高逆対象を過小評価する傾向にあることを示す。
本稿では,GFlowNetsに対する悲観的なバックワードポリシーを提案し,観測されたフローを最大化し,オブジェクトに対する真の報酬と密接に一致させる。
論文 参考訳(メタデータ) (2024-05-25T02:30:46Z) - Dynamic Backtracking in GFlowNets: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms [16.290568463440618]
本稿では,新規なGFN, Dynamic Backtracking GFN(DB-GFN)を提案する。
DB-GFNは、現在の状態の報酬値に応じて、ネットワーク構築プロセス中のバックトラックを可能にする。
LS-GFNやGTBなどのGFNモデルよりも、サンプル品質、サンプル探索量、トレーニング収束速度が優れている。
論文 参考訳(メタデータ) (2024-04-08T14:52:48Z) - Maximum entropy GFlowNets with soft Q-learning [9.813098141615933]
生成フローネットワーク(GFN)は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場した。
本稿では,GFNと最大エントロピー強化学習(RL)の関連性について,適切な報酬関数を構築することで検討する。
本研究では,一様後方ポリシを持つGFNとは対照的に,GFNが状態空間に制約を加えることなく達成できる最大エントロピーを実現するための最大エントロピーGFNを紹介する。
論文 参考訳(メタデータ) (2023-12-21T23:31:35Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Sample-efficient Multi-objective Molecular Optimization with GFlowNets [5.030493242666028]
ハイパーネットワークに基づくGFlowNets(HN-GFN)を利用した多目的ベイズ最適化(MOBO)アルゴリズムを提案する。
HN-GFNは、単一の嗜好条件のハイパーネットワークを用いて、目的間の様々なトレードオフを探索することを学ぶ。
実世界の様々な環境での実験により、我々のフレームワークは、候補品質とサンプル効率の点で、既存の手法よりも圧倒的に優れていることが示された。
論文 参考訳(メタデータ) (2023-02-08T13:30:28Z) - Multi-Objective GFlowNets [59.16787189214784]
本稿では,多目的最適化の文脈において,多様な候補を生成する問題について検討する。
薬物発見やマテリアルデザインといった機械学習の多くの応用において、目標は、競合する可能性のある目標のセットを同時に最適化する候補を生成することである。
GFlowNetsをベースとした多目的GFlowNets(MOGFNs)を提案する。
論文 参考訳(メタデータ) (2022-10-23T16:15:36Z) - GFlowNet Foundations [66.69854262276391]
Generative Flow Networks (GFlowNets) は、多様な候補をアクティブな学習コンテキストでサンプリングする方法として導入された。
GFlowNetのさらなる理論的性質について述べる。
論文 参考訳(メタデータ) (2021-11-17T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。