Fugu-MT 論文翻訳(概要): Bayesian Exploration Networks

論文の概要: Bayesian Exploration Networks

arxiv url: http://arxiv.org/abs/2308.13049v1
Date: Thu, 24 Aug 2023 19:35:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 16:02:48.692473
Title: Bayesian Exploration Networks
Title（参考訳）: ベイジアン探査網
Authors: Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt and Shimon Whiteson
Abstract要約: ベイズ RL の鍵となる課題は、ベイズ最適化ポリシーを学習する際の計算複雑性である。この課題に対処するための新しいモデルフリーアプローチを提案する。提案手法は,既存のモデルフリーアプローチが失敗するタスクにおいて,ベイズ最適ポリシーを学習可能であることを示す。
参考スコア（独自算出の注目度）: 30.98996034003365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bayesian reinforcement learning (RL) offers a principled and elegant approach for sequential decision making under uncertainty. Most notably, Bayesian agents do not face an exploration/exploitation dilemma, a major pathology of frequentist methods. A key challenge for Bayesian RL is the computational complexity of learning Bayes-optimal policies, which is only tractable in toy domains. In this paper we propose a novel model-free approach to address this challenge. Rather than modelling uncertainty in high-dimensional state transition distributions as model-based approaches do, we model uncertainty in a one-dimensional Bellman operator. Our theoretical analysis reveals that existing model-free approaches either do not propagate epistemic uncertainty through the MDP or optimise over a set of contextual policies instead of all history-conditioned policies. Both approximations yield policies that can be arbitrarily Bayes-suboptimal. To overcome these issues, we introduce the Bayesian exploration network (BEN) which uses normalising flows to model both the aleatoric uncertainty (via density estimation) and epistemic uncertainty (via variational inference) in the Bellman operator. In the limit of complete optimisation, BEN learns true Bayes-optimal policies, but like in variational expectation-maximisation, partial optimisation renders our approach tractable. Empirical results demonstrate that BEN can learn true Bayes-optimal policies in tasks where existing model-free approaches fail.
Abstract（参考訳）: ベイズ強化学習(RL)は、不確実性の下でのシーケンシャルな意思決定に原則的でエレガントなアプローチを提供する。特に、ベイズエージェントは、頻繁な方法の主要な病理である探索/探索ジレンマに直面しない。ベイズ RL の鍵となる課題は、おもちゃの領域でしか扱えないベイズ最適化ポリシーを学習する計算複雑性である。本稿では,この課題に対処する新しいモデルフリーアプローチを提案する。高次元状態遷移分布における不確かさをモデルベースアプローチのようにモデル化するのではなく、一次元ベルマン作用素における不確かさをモデル化する。理論的分析により,既存のモデルフリーアプローチは,mdpを通じて認識論的不確実性が伝播しないか,あるいはすべての履歴条件付きポリシではなく,一連の文脈的ポリシを最適化しないことが明らかとなった。どちらの近似も任意にベイズ準最適となるような方針を与える。これらの問題を克服するために,ベルマン作用素のアレタリック不確実性(密度推定)とエピステミック不確実性(変動推論)の両方をモデル化するために,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入する。完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。実証的な結果は、BENが既存のモデルフリーアプローチが失敗するタスクにおいて、真のベイズ最適化ポリシーを学習できることを示しています。

関連論文リスト

BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。しかし、これは現実世界の長い尾のデータ分布には適用できない。本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文参考訳（メタデータ） (2025-06-29T15:12:50Z)
Bayesian learning of the optimal action-value function in a Markov decision process [7.186805722297615]
私たちは、モデリングから推論、意思決定まで、完全なベイズ的なフレームワークを提供しています。推論のために,緩やかな後部分布の列をサンプリングし,調整するために,適応的な連続モンテカルロアルゴリズムを提案する。一般的に行われているが、マルチアームバンディット問題からのトンプソンサンプリングの一般化であることを示す新しい洞察を提供する。
論文参考訳（メタデータ） (2025-05-03T16:37:14Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Continuous Bayesian Model Selection for Multivariate Causal Discovery [22.945274948173182]
現在の因果的発見アプローチは、構造的識別可能性を確保するために、限定的なモデル仮定や介入データへのアクセスを必要とする。近年の研究では、ベイズモデルの選択はより柔軟な仮定のために制限的モデリングを交換することで精度を大幅に向上させることができることが示されている。合成データセットと実世界のデータセットの両方において、我々のアプローチの競争力を実証する。
論文参考訳（メタデータ） (2024-11-15T12:55:05Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Calibrating Neural Simulation-Based Inference with Differentiable Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文参考訳（メタデータ） (2023-10-20T10:20:45Z)
Model-based Causal Bayesian Optimization [78.120734120667]
モデルに基づく因果ベイズ最適化(MCBO)を提案する。 MCBOは介入と逆のペアをモデリングするのではなく、完全なシステムモデルを学ぶ。標準的なベイズ最適化とは異なり、我々の取得関数は閉形式では評価できない。
論文参考訳（メタデータ） (2022-11-18T14:28:21Z)
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-26T02:14:10Z)
BayesCap: Bayesian Identity Cap for Calibrated Uncertainty in Frozen Neural Networks [50.15201777970128]
本研究では,凍結モデルに対するベイズIDマッピングを学習し,不確実性の推定を可能にするBayesCapを提案する。 BayesCapは、元のデータセットのごく一部でトレーニングできる、メモリ効率のよいメソッドである。本稿では,多種多様なアーキテクチャを用いた多種多様なタスクに対する本手法の有効性を示す。
論文参考訳（メタデータ） (2022-07-14T12:50:09Z)
Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文参考訳（メタデータ） (2021-06-09T12:20:46Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-29T21:17:25Z)
Bayesian Quantile and Expectile Optimisation [3.3878745408530833]
本研究では,非定常雑音設定に適したベイズ量子と予測回帰の新しい変分モデルを提案する。我々の戦略は、観測の複製やノイズのパラメトリック形式を仮定することなく、量子と予測を直接最適化することができる。実験セクションで示されるように、提案手法は異端性非ガウス的ケースにおいて、明らかに芸術の状態を上回ります。
論文参考訳（メタデータ） (2020-01-12T20:51:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。