論文の概要: Generalised Linear Models in Deep Bayesian RL with Learnable Basis Functions
- arxiv url: http://arxiv.org/abs/2512.20974v1
- Date: Wed, 24 Dec 2025 06:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.694499
- Title: Generalised Linear Models in Deep Bayesian RL with Learnable Basis Functions
- Title(参考訳): 学習可能な基底関数を持つ深ベイズRLの一般化線形モデル
- Authors: Jingyang You, Hanna Kurniawati,
- Abstract要約: 我々は、学習可能な基底関数(GLiBRL)を持つディープベイズRLにおける新しいディープBRL法、一般化線形モデルを導入する。
挑戦的なMetaWorld ML10/45ベンチマークでは、GLiBRLは最先端のディープBRL手法であるVariBADの成功率を最大2.7倍改善した。
- 参考スコア(独自算出の注目度): 4.605026772972944
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bayesian Reinforcement Learning (BRL) provides a framework for generalisation of Reinforcement Learning (RL) problems from its use of Bayesian task parameters in the transition and reward models. However, classical BRL methods assume known forms of transition and reward models, reducing their applicability in real-world problems. As a result, recent deep BRL methods have started to incorporate model learning, though the use of neural networks directly on the joint data and task parameters requires optimising the Evidence Lower Bound (ELBO). ELBOs are difficult to optimise and may result in indistinctive task parameters, hence compromised BRL policies. To this end, we introduce a novel deep BRL method, Generalised Linear Models in Deep Bayesian RL with Learnable Basis Functions (GLiBRL), that enables efficient and accurate learning of transition and reward models, with fully tractable marginal likelihood and Bayesian inference on task parameters and model noises. On challenging MetaWorld ML10/45 benchmarks, GLiBRL improves the success rate of one of the state-of-the-art deep BRL methods, VariBAD, by up to 2.7x. Comparing against representative or recent deep BRL / Meta-RL methods, such as MAML, RL2, SDVT, TrMRL and ECET, GLiBRL also demonstrates its low-variance and decent performance consistently.
- Abstract(参考訳): ベイジアン強化学習(英: Bayesian Reinforcement Learning, BRL)は、ベイジアンタスクパラメータを移行モデルや報酬モデルに用い、強化学習(Reinforcement Learning, RL)問題を一般化するためのフレームワークである。
しかし、古典的なBRL法は、既知の遷移モデルと報酬モデルを想定し、実世界の問題に適用可能性を減らす。
その結果、近年の深層BRL法はモデル学習を取り入れ始めているが、ニューラルネットワークを直接ジョイントデータとタスクパラメータに利用するには、エビデンス・ロウアー・バウンド(ELBO)の最適化が必要である。
ELBOは最適化が困難であり、不特定タスクパラメータが生じる可能性があるため、BRLポリシーが損なわれる。
この目的のために,学習可能な基底関数(GLiBRL)を用いたディープベイズRLにおける一般化線形モデル(Generalized Linear Models in Deep Bayesian RL)を提案する。
挑戦的なMetaWorld ML10/45ベンチマークでは、GLiBRLは最先端のディープBRL手法であるVariBADの成功率を最大2.7倍改善した。
MAML, RL2, SDVT, TrMRL, ECETなどの最近のディープBRL/Meta-RL法と比較すると, GLiBRLはその低分散性および良好な性能を一貫して示している。
関連論文リスト
- SOMBRL: Scalable and Optimistic Model-Based RL [78.3360288726531]
我々は不確実性に直面した楽観主義の原理に基づくアプローチを提案する。
我々はSOMBRLが原理探索のための柔軟でスケーラブルなソリューションであることを示す。
また,動的RCカーハードウェア上でのSOMBRLの評価を行い,その性能について述べる。
論文 参考訳(メタデータ) (2025-11-25T08:39:21Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Mind the Model, Not the Agent: The Primacy Bias in Model-based RL [27.41568030157649]
モデルフリー強化学習(MFRL)におけるプライマリシーバイアス(プライマリシーバイアス)とは、エージェントが早期データに適合し、新しいデータから学習する能力を失う傾向をいう。
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、MFRLの優劣バイアスを大幅に緩和できることが示されている。
本研究は,モデルベース強化学習(MBRL)におけるプライマリシーバイアスの調査に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-23T15:12:20Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。