論文の概要: Combining Bayesian Inference and Reinforcement Learning for Agent Decision Making: A Review
- arxiv url: http://arxiv.org/abs/2505.07911v1
- Date: Mon, 12 May 2025 13:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.28027
- Title: Combining Bayesian Inference and Reinforcement Learning for Agent Decision Making: A Review
- Title(参考訳): エージェント決定のためのベイズ推論と強化学習の併用:一考察
- Authors: Chengmin Zhou, Ville Kyrki, Pasi Fränti, Laura Ruotsalainen,
- Abstract要約: 本稿では,ベイズ推論と強化学習を組み合わせることに焦点を当てる。
ベイジアン推論は、通常のデータ駆動のブラックボックスニューラルネットワークよりも、エージェントの決定に多くの利点がある。
- 参考スコア(独自算出の注目度): 7.905957228045954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian inference has many advantages in decision making of agents (e.g. robotics/simulative agent) over a regular data-driven black-box neural network: Data-efficiency, generalization, interpretability, and safety where these advantages benefit directly/indirectly from the uncertainty quantification of Bayesian inference. However, there are few comprehensive reviews to summarize the progress of Bayesian inference on reinforcement learning (RL) for decision making to give researchers a systematic understanding. This paper focuses on combining Bayesian inference with RL that nowadays is an important approach in agent decision making. To be exact, this paper discusses the following five topics: 1) Bayesian methods that have potential for agent decision making. First basic Bayesian methods and models (Bayesian rule, Bayesian learning, and Bayesian conjugate models) are discussed followed by variational inference, Bayesian optimization, Bayesian deep learning, Bayesian active learning, Bayesian generative models, Bayesian meta-learning, and lifelong Bayesian learning. 2) Classical combinations of Bayesian methods with model-based RL (with approximation methods), model-free RL, and inverse RL. 3) Latest combinations of potential Bayesian methods with RL. 4) Analytical comparisons of methods that combine Bayesian methods with RL with respect to data-efficiency, generalization, interpretability, and safety. 5) In-depth discussions in six complex problem variants of RL, including unknown reward, partial-observability, multi-agent, multi-task, non-linear non-Gaussian, and hierarchical RL problems and the summary of how Bayesian methods work in the data collection, data processing and policy learning stages of RL to pave the way for better agent decision-making strategies.
- Abstract(参考訳): ベイズ推論は、通常のデータ駆動型ブラックボックスニューラルネットワーク(データ効率、一般化、解釈可能性、安全性)に対するエージェント(例えばロボティクス/シミュレーションエージェント)の決定に多くの利点がある。
しかし、研究者に体系的な理解を与える決定を下すための強化学習(RL)に対するベイズ的推論の進歩を要約する包括的なレビューはほとんどない。
本稿では,現在エージェント意思決定において重要なアプローチであるベイズ推論とRLを組み合わせることに焦点を当てる。
具体的には、以下の5つのトピックについて論じる。
1)エージェント決定の可能性を秘めたベイズ的方法。
最初のベイズ的手法とモデル(ベイズ的規則,ベイズ的学習,ベイズ的共役モデル)について考察し,変分推論,ベイズ的最適化,ベイズ的深層学習,ベイズ的アクティブラーニング,ベイズ的生成モデル,ベイズ的メタラーニング,生涯にわたるベイズ的学習について考察した。
2)ベイズ法とモデルベースRL(近似法),モデルフリーRL,逆RLの古典的組み合わせ。
3) ベイズ法とRLの最近の組み合わせ
4)データ効率,一般化,解釈可能性,安全性に関して,ベイズ法とRLを併用する手法の分析比較を行った。
5) 未知の報酬,部分可観測性,マルチエージェント,マルチタスク,非線形非ガウス問題,階層的RL問題を含む,RLの6つの複雑な問題変種に関する詳細な議論と,ベイズ法がデータ収集,データ処理,およびRLの政策学習段階においてどのように機能するかの要約。
関連論文リスト
- What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - Bayesian inference for data-efficient, explainable, and safe robotic
motion planning: A review [2.8660829482416346]
ロボット運動計画におけるベイジアン推論の適用は、ベイジアン推論の包括的理論に遅れを取っている。
この論文は、複素ケースに対するベイズ推論の予備となるベイズ推論の確率論的理論を最初に提示する。
逆 RL におけるベイズ推定の解析は、データ効率のよい方法で報酬関数を推定するために与えられる。
論文 参考訳(メタデータ) (2023-07-16T12:29:27Z) - ContraBAR: Contrastive Bayes-Adaptive Deep RL [22.649531458557206]
メタ強化学習(メタRL)では、エージェントが未知のタスクに直面するときの最適なポリシーであるベイズ最適ポリシーを求める。
ベイズ最適行動の学習にコントラスト法が有効かどうかを検討する。
本稿では,変分的信念推論の代わりにコントラスト的予測符号化(CPC)を用いる単純なメタRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-04T17:50:20Z) - Rethinking Bayesian Learning for Data Analysis: The Art of Prior and
Inference in Sparsity-Aware Modeling [20.296566563098057]
信号処理と機械学習のためのスパースモデリングは、20年以上にわたって科学研究の焦点となっている。
本稿では,3つの一般的なデータモデリングツールにスパーシティ・プロモーティング・プリエントを組み込むことの最近の進歩を概観する。
論文 参考訳(メタデータ) (2022-05-28T00:43:52Z) - BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs [22.78390558602203]
BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。
また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
論文 参考訳(メタデータ) (2022-02-17T19:48:35Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Continual Learning using a Bayesian Nonparametric Dictionary of Weight
Factors [75.58555462743585]
訓練されたニューラルネットワークは、シーケンシャルなタスク設定で破滅的な忘れを経験する傾向がある。
Indian Buffet Process (IBP) に基づく原則的非パラメトリック手法を提案する。
連続学習ベンチマークにおける本手法の有効性を実証し、トレーニングを通して重み要因の配分と再利用方法を分析する。
論文 参考訳(メタデータ) (2020-04-21T15:20:19Z) - A Tutorial on Learning With Bayesian Networks [8.98526174345299]
ベイズネットワークは、興味のある変数間の確率的関係を符号化するグラフィカルモデルである。
ベイズネットワークは因果関係の学習に利用できる。
また、問題領域の理解を得、介入の結果を予測するためにも使用できる。
論文 参考訳(メタデータ) (2020-02-01T20:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。