論文の概要: Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2002.03098v2
- Date: Wed, 1 Jul 2020 19:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:20:34.457061
- Title: Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning
- Title(参考訳): inferential induction: ベイズ強化学習のための新しい枠組み
- Authors: Hannes Eriksson and Emilio Jorge and Christos Dimitrakakis and
Debabrota Basu and Divya Grover
- Abstract要約: 本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。
本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
- 参考スコア(独自算出の注目度): 6.16852156844376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian reinforcement learning (BRL) offers a decision-theoretic solution
for reinforcement learning. While "model-based" BRL algorithms have focused
either on maintaining a posterior distribution on models or value functions and
combining this with approximate dynamic programming or tree search, previous
Bayesian "model-free" value function distribution approaches implicitly make
strong assumptions or approximations. We describe a novel Bayesian framework,
Inferential Induction, for correctly inferring value function distributions
from data, which leads to the development of a new class of BRL algorithms. We
design an algorithm, Bayesian Backwards Induction, with this framework. We
experimentally demonstrate that the proposed algorithm is competitive with
respect to the state of the art.
- Abstract(参考訳): bayesian reinforcement learning (brl) は強化学習のための決定論的ソリューションを提供する。
モデルベース」なBRLアルゴリズムは、モデルや値関数の後方分布を維持し、これを近似動的プログラミングや木探索と組み合わせることに集中しているが、以前のベイズ的「モデルフリー」な値関数分布アプローチは暗黙的に強い仮定や近似を行う。
本稿では,データから値関数分布を正しく推測し,brlアルゴリズムの新たなクラスの開発に繋がる新しいベイズ的枠組みである推論帰納法について述べる。
我々はベイズ逆帰納法というアルゴリズムをこの枠組みで設計する。
本研究では,提案アルゴリズムが技術状況に対して競合することを示す。
関連論文リスト
- Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Classified as unknown: A novel Bayesian neural network [0.0]
完全連結ニューラルネットワークのための効率の良いベイズ学習アルゴリズムを開発した。
多層パーセプトロンから多層パーセプトロンへの二元分類のための単一パーセプトロンのアルゴリズムを一般化する。
論文 参考訳(メタデータ) (2023-01-31T04:27:09Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Bayesian Federated Neural Matching that Completes Full Information [2.6566593102111473]
フェデレートラーニング(Federated Learning)は、局所的に訓練されたモデルをグローバルモデルに蒸留する機械学習パラダイムである。
そこで本研究では,各イテレーションでKulback-Leibler分散ペナルティを導入することで,この欠陥を克服する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-15T09:47:56Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。