論文の概要: VariBASed: Variational Bayes-Adaptive Sequential Monte-Carlo Planning for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.18857v1
- Date: Sat, 21 Feb 2026 14:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.359133
- Title: VariBASed: Variational Bayes-Adaptive Sequential Monte-Carlo Planning for Deep Reinforcement Learning
- Title(参考訳): VariBASed: 深層強化学習のための変分ベイズ適応系列モンテカルロ計画
- Authors: Joery A. de Vries, Jinke He, Yaniv Oren, Pascal R. van der Vaart, Mathijs M. de Weerdt, Matthijs T. J. Spaan,
- Abstract要約: 本稿ではベイズ適応マルコフ決定過程における学習と計画のための変分フレームワークを提案する。
我々の新しい手法であるVariBASeDは、より大きな計画予算へのスケーリングを好適に実現し、従来の手法よりもサンプルおよび実行効率を向上させる。
- 参考スコア(独自算出の注目度): 8.790103789376202
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Optimally trading-off exploration and exploitation is the holy grail of reinforcement learning as it promises maximal data-efficiency for solving any task. Bayes-optimal agents achieve this, but obtaining the belief-state and performing planning are both typically intractable. Although deep learning methods can greatly help in scaling this computation, existing methods are still costly to train. To accelerate this, this paper proposes a variational framework for learning and planning in Bayes-adaptive Markov decision processes that coalesces variational belief learning, sequential Monte-Carlo planning, and meta-reinforcement learning. In a single-GPU setup, our new method VariBASeD exhibits favorable scaling to larger planning budgets, improving sample- and runtime-efficiency over prior methods.
- Abstract(参考訳): 最適なトレードオフ探索と活用は、どんなタスクでも最大のデータ効率を約束する強化学習の聖杯である。
ベイズ最適エージェントはこれに対処するが、信念状態の取得と計画の実行はどちらも典型的には難解である。
ディープラーニングの手法は、この計算をスケールするのに大いに役立つが、既存の手法はまだ訓練に費用がかかる。
そこで本研究では,ベイズ適応型マルコフ決定プロセスにおける学習と計画のための変分枠組みを提案し,変分信念学習,連続モンテカルロ計画,メタ強化学習を融合させた。
単一GPUセットアップでは、VariBASeDはより大規模な計画予算へのスケーリングが好適であり、以前の手法よりもサンプルと実行効率が向上する。
関連論文リスト
- Closing the Train-Test Gap in World Models for Gradient-Based Planning [64.36544881136405]
本研究では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
テスト時には,古典的勾配のないクロスエントロピー法よりも優れた手法が提案される。
論文 参考訳(メタデータ) (2025-12-10T18:59:45Z) - Scaling and Transferability of Annealing Strategies in Large Language Model Training [59.443651879173025]
我々はWarmup-Steady-Decay (WSD)スケジューラのアニーリング戦略を最適化するための予測フレームワークを改良する。
改良されたフレームワークは、トレーニングステップ、最大学習率、アニール動作を取り入れ、学習率スケジュールのより効率的な最適化を可能にする。
我々は,Dense と Mixture-of-Experts (MoE) モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2025-12-05T16:38:33Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning [8.552540426753]
本稿では,Dynaスタイルのプランニング中に状態がクエリされる確率を調整可能な,オンラインのメタグラディエントアルゴリズムを提案する。
その結果,提案手法は計画プロセスの効率化を図っている。
論文 参考訳(メタデータ) (2024-06-27T22:24:46Z) - Invariant Meta Learning for Out-of-Distribution Generalization [1.1718589131017048]
本稿では,アウト・オブ・ディストリビューションタスクのための不変なメタ学習を提案する。
具体的には、不変な最適メタ初期化と、正規化ペナルティを持つ配布外タスクへの迅速な適応である。
論文 参考訳(メタデータ) (2023-01-26T12:53:21Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Multi-Task Meta-Learning Modification with Stochastic Approximation [0.7734726150561089]
数ショットの学習問題は、メタ学習アルゴリズムの主要なベンチマークの1つである。
本稿では、トレーニング中にマルチタスクアプローチをとる標準的なメタ学習パイプラインの修正について検討する。
提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。
これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。
論文 参考訳(メタデータ) (2021-10-25T18:11:49Z) - Gradient-EM Bayesian Meta-learning [6.726255259929496]
ベイズメタラーニングの背後にある主要なアイデアは、階層的モデルのベイズ推論を経験的に行うことである。
本研究では、このフレームワークを様々な既存手法に拡張し、勾配-EMアルゴリズムに基づく変種を提案する。
正弦波回帰, 少数ショット画像分類, およびポリシーに基づく強化学習実験により, 本手法は計算コストを抑えて精度を向上するだけでなく, 不確実性に対しても頑健であることが示された。
論文 参考訳(メタデータ) (2020-06-21T10:52:59Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。