論文の概要: Evaluating GFlowNet from partial episodes for stable and flexible policy-based training
- arxiv url: http://arxiv.org/abs/2603.01047v1
- Date: Sun, 01 Mar 2026 11:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.478073
- Title: Evaluating GFlowNet from partial episodes for stable and flexible policy-based training
- Title(参考訳): 安定かつフレキシブルな政策ベーストレーニングのための部分エピソードからのGFlowNetの評価
- Authors: Puhua Niu, Shili Wu, Xiaoning Qian,
- Abstract要約: 生成フローネットワーク (GFlowNets) は, 有向非巡回グラフにおいて, 生成過程を軌跡として解釈することで, 効率よく候補を抽出するためのポリシーを学習するために開発された。
価値に基づくトレーニングワークフローでは、学習された政策の流れと望ましい政策の予測フローとの間の部分的なエピソードのバランスを強制し、政策の分散を暗黙的に促進する。
本研究は,2つの視点を橋渡しし,フローバランスが分散度を測定する原則的政策評価器も得られることを示すとともに,部分的エピソードに対する評価バランス目標が評価器の学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 16.156960386139136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Flow Networks (GFlowNets) were developed to learn policies for efficiently sampling combinatorial candidates by interpreting their generative processes as trajectories in directed acyclic graphs. In the value-based training workflow, the objective is to enforce the balance over partial episodes between the flows of the learned policy and the estimated flows of the desired policy, implicitly encouraging policy divergence minimization. The policy-based strategy alternates between estimating the policy divergence and updating the policy, but reliable estimation of the divergence under directed acyclic graphs remains a major challenge. This work bridges the two perspectives by showing that flow balance also yields a principled policy evaluator that measures the divergence, and an evaluation balance objective over partial episodes is proposed for learning the evaluator. As demonstrated on both synthetic and real-world tasks, evaluation balance not only strengthens the reliability of policy-based training but also broadens its flexibility by seamlessly supporting parameterized backward policies and enabling the integration of offline data-collection techniques.
- Abstract(参考訳): 生成フローネットワーク (GFlowNets) は, 生成過程を有向非巡回グラフの軌跡として解釈することにより, 組合せ候補を効率的にサンプリングするためのポリシーを学習するために開発された。
価値に基づくトレーニングワークフローでは、学習された政策の流れと望ましい政策の予測フローとの間の部分的なエピソードのバランスを強制し、政策の分散を暗黙的に促進する。
政策に基づく戦略は、政策の偏りの推定と政策の更新を交互に行うが、有向非循環グラフの下での偏りの信頼性は依然として大きな課題である。
本研究は,2つの視点を橋渡しし,フローバランスが分散度を測定する原則的政策評価器も得られることを示すとともに,部分的エピソードに対する評価バランス目標が評価器の学習に有効であることを示す。
総合的なタスクと実世界のタスクの両方で実証されたように、評価バランスはポリシーベースのトレーニングの信頼性を高めるだけでなく、パラメータ化された後方ポリシーをシームレスにサポートし、オフラインデータ収集技術の統合を可能にすることで、その柔軟性を拡大する。
関連論文リスト
- PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning [6.836651088754774]
PolicyFlowは、CNFベースの強化学習アルゴリズムである。
表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。
PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
論文 参考訳(メタデータ) (2026-02-01T11:08:09Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning [52.97053840476386]
我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。
我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
論文 参考訳(メタデータ) (2025-11-13T23:06:40Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Reinforcement Learning with Continuous Actions Under Unmeasured Confounding [14.510042451844766]
本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。
我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。
得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
論文 参考訳(メタデータ) (2025-05-01T04:55:29Z) - Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits [31.571978291138866]
本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。
本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-21T00:42:06Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。