Fugu-MT 論文翻訳(概要): Surrogate-based quantification of policy uncertainty in generative flow networks

論文の概要: Surrogate-based quantification of policy uncertainty in generative flow networks

arxiv url: http://arxiv.org/abs/2510.21523v1
Date: Fri, 24 Oct 2025 14:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 09:00:15.50997
Title: Surrogate-based quantification of policy uncertainty in generative flow networks
Title（参考訳）: 生成フローネットワークにおけるサロゲートに基づく政策不確実性の定量化
Authors: Ramón Nartallo-Kaluarachchi, Robert Manson-Sawko, Shashanka Ubaru, Dongsung Huh, Małgorzata J Zimoń, Lior Horesh, Yoshua Bengio,
Abstract要約: 代理モデルを構築することによって不確実性を定量化する手法を提案する。このモデルは、低次元空間でパラメトリされた報酬関数の関係を学習する。その後、安価なモンテカルロサンプリングに使用でき、不確実な報酬を与えられた政策の不確実性を推定することができる。
参考スコア（独自算出の注目度）: 45.21976249692826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative flow networks are able to sample, via sequential construction, high-reward, complex objects according to a reward function. However, such reward functions are often estimated approximately from noisy data, leading to epistemic uncertainty in the learnt policy. We present an approach to quantify this uncertainty by constructing a surrogate model composed of a polynomial chaos expansion, fit on a small ensemble of trained flow networks. This model learns the relationship between reward functions, parametrised in a low-dimensional space, and the probability distributions over actions at each step along a trajectory of the flow network. The surrogate model can then be used for inexpensive Monte Carlo sampling to estimate the uncertainty in the policy given uncertain rewards. We illustrate the performance of our approach on a discrete and continuous grid-world, symbolic regression, and a Bayesian structure learning task.
Abstract（参考訳）: 生成フローネットワークは、報酬関数に従って、シーケンシャルな構築、ハイリワード、複雑なオブジェクトをサンプリングすることができる。しかし、このような報奨関数はノイズの多いデータから推定されることが多く、学習政策における疫学的な不確実性をもたらす。本稿では,この不確実性を多項式カオス展開からなる代理モデルを構築し,学習されたフローネットワークの小さなアンサンブルに適合させることにより定量化する手法を提案する。このモデルは、低次元空間でパラメトリされた報酬関数と、フローネットワークの軌道に沿った各ステップにおける行動上の確率分布の関係を学習する。シュロゲートモデルは、不確実な報酬が与えられた政策の不確実性を推定するために、安価なモンテカルロサンプリングに使用できる。本稿では,離散的かつ連続的なグリッドワールド,象徴的回帰,ベイズ構造学習タスクについて述べる。

関連論文リスト

Statistical analysis of Inverse Entropy-regularized Reinforcement Learning [15.054399128586232]
逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。多くの報酬関数は同じ最適ポリシーを導き出すことができ、逆問題に悪影響を及ぼす。 Inverse Entropy-regularized Reinforcement Learningのための統計フレームワークを開発する。
論文参考訳（メタデータ） (2025-12-07T18:26:19Z)
Adaptive Machine Learning-Driven Multi-Fidelity Stratified Sampling for Failure Analysis of Nonlinear Stochastic Systems [0.0]
適応型機械学習メタモデルを用いて,小さな故障確率を推定する多要素階層化サンプリング手法を提案する。高忠実度データセットを使用してディープラーニングベースのメタモデルをトレーニングし、コスト効率が高く高相関の低忠実度モデルとして機能する。多要素モンテカルロフレームワークを用いて, 階層的故障確率の偏りのない推定値を求める。
論文参考訳（メタデータ） (2025-08-01T16:04:21Z)
Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文参考訳（メタデータ） (2025-02-19T05:30:46Z)
Generative Assignment Flows for Representing and Learning Joint Distributions of Discrete Data [2.6499018693213316]
離散確率変数の結合確率分布の表現のための新しい生成モデルを提案する。このアプローチでは、分解分布の統計部分多様体上のランダム化代入フローによる測度輸送を用いる。
論文参考訳（メタデータ） (2024-06-06T21:58:33Z)
Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文参考訳（メタデータ） (2023-10-10T14:06:56Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文参考訳（メタデータ） (2023-02-11T22:06:17Z)
Sample Complexity of Nonparametric Off-Policy Evaluation on Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文参考訳（メタデータ） (2022-06-06T20:25:20Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。