論文の概要: Surrogate-based quantification of policy uncertainty in generative flow networks
- arxiv url: http://arxiv.org/abs/2510.21523v1
- Date: Fri, 24 Oct 2025 14:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.50997
- Title: Surrogate-based quantification of policy uncertainty in generative flow networks
- Title(参考訳): 生成フローネットワークにおけるサロゲートに基づく政策不確実性の定量化
- Authors: Ramón Nartallo-Kaluarachchi, Robert Manson-Sawko, Shashanka Ubaru, Dongsung Huh, Małgorzata J Zimoń, Lior Horesh, Yoshua Bengio,
- Abstract要約: 代理モデルを構築することによって不確実性を定量化する手法を提案する。
このモデルは、低次元空間でパラメトリされた報酬関数の関係を学習する。
その後、安価なモンテカルロサンプリングに使用でき、不確実な報酬を与えられた政策の不確実性を推定することができる。
- 参考スコア(独自算出の注目度): 45.21976249692826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative flow networks are able to sample, via sequential construction, high-reward, complex objects according to a reward function. However, such reward functions are often estimated approximately from noisy data, leading to epistemic uncertainty in the learnt policy. We present an approach to quantify this uncertainty by constructing a surrogate model composed of a polynomial chaos expansion, fit on a small ensemble of trained flow networks. This model learns the relationship between reward functions, parametrised in a low-dimensional space, and the probability distributions over actions at each step along a trajectory of the flow network. The surrogate model can then be used for inexpensive Monte Carlo sampling to estimate the uncertainty in the policy given uncertain rewards. We illustrate the performance of our approach on a discrete and continuous grid-world, symbolic regression, and a Bayesian structure learning task.
- Abstract(参考訳): 生成フローネットワークは、報酬関数に従って、シーケンシャルな構築、ハイリワード、複雑なオブジェクトをサンプリングすることができる。
しかし、このような報奨関数はノイズの多いデータから推定されることが多く、学習政策における疫学的な不確実性をもたらす。
本稿では,この不確実性を多項式カオス展開からなる代理モデルを構築し,学習されたフローネットワークの小さなアンサンブルに適合させることにより定量化する手法を提案する。
このモデルは、低次元空間でパラメトリされた報酬関数と、フローネットワークの軌道に沿った各ステップにおける行動上の確率分布の関係を学習する。
シュロゲートモデルは、不確実な報酬が与えられた政策の不確実性を推定するために、安価なモンテカルロサンプリングに使用できる。
本稿では,離散的かつ連続的なグリッドワールド,象徴的回帰,ベイズ構造学習タスクについて述べる。
関連論文リスト
- Generative Assignment Flows for Representing and Learning Joint Distributions of Discrete Data [2.6499018693213316]
離散確率変数の結合確率分布の表現のための新しい生成モデルを提案する。
このアプローチでは、分解分布の統計部分多様体上のランダム化代入フローによる測度輸送を用いる。
論文 参考訳(メタデータ) (2024-06-06T21:58:33Z) - Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。
複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。
提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文 参考訳(メタデータ) (2023-10-10T14:06:56Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。