論文の概要: In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior
- arxiv url: http://arxiv.org/abs/2601.03015v1
- Date: Tue, 06 Jan 2026 13:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.954276
- Title: In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior
- Title(参考訳): Bayesian Fusion of Context and Value Priorによる文脈強化学習
- Authors: Anaïs Berkes, Vincent Taboga, Donna Vakalis, David Rolnick, Yoshua Bengio,
- Abstract要約: テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。
本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。
本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
- 参考スコア(独自算出の注目度): 53.21550098214227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In-context reinforcement learning (ICRL) promises fast adaptation to unseen environments without parameter updates, but current methods either cannot improve beyond the training distribution or require near-optimal data, limiting practical adoption. We introduce SPICE, a Bayesian ICRL method that learns a prior over Q-values via deep ensemble and updates this prior at test-time using in-context information through Bayesian updates. To recover from poor priors resulting from training on sub-optimal data, our online inference follows an Upper-Confidence Bound rule that favours exploration and adaptation. We prove that SPICE achieves regret-optimal behaviour in both stochastic bandits and finite-horizon MDPs, even when pretrained only on suboptimal trajectories. We validate these findings empirically across bandit and control benchmarks. SPICE achieves near-optimal decisions on unseen tasks, substantially reduces regret compared to prior ICRL and meta-RL approaches while rapidly adapting to unseen tasks and remaining robust under distribution shift.
- Abstract(参考訳): インコンテキスト強化学習(ICRL)は、パラメータの更新なしに、未確認環境への迅速な適応を約束するが、現在の手法はトレーニング分布を超えて改善できないか、あるいはほぼ最適なデータを必要とするため、実践的採用が制限される。
本研究では,ベイジアン ICRL 法である SPICE を導入し,ベイジアン更新によるコンテキスト内情報を用いて,深層アンサンブルによるQ値の事前学習を行い,テスト時に更新する。
準最適データのトレーニングによって生じる、貧弱な事前から回復するために、我々のオンライン推論は、探索と適応を好む上部信頼境界ルールに従っている。
また,SPICEは,準最適軌道のみに事前訓練した場合でも,確率的包帯と有限水平MDPの両面において,後悔と最適動作を達成できることを証明した。
これらの知見を,帯域幅および制御ベンチマークで実証的に検証した。
SPICE は未確認タスクのほぼ最適決定を達成し、ICRL や Meta-RL のアプローチに比べて大幅に後悔を減らし、未確認タスクに迅速に適応し、分散シフトの下で頑健なままである。
関連論文リスト
- Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - Zero-Shot Off-Policy Learning [9.729890516322781]
オフ政治学習法は、事前の相互作用の固定されたデータセットから直接最適なポリシーを導き出そうとする。
本研究では, 定常密度比に対する後継対策の理論的関連を見出すことにより, ゼロショット環境での政治外問題に対処する。
提案アルゴリズムは最適な重要度サンプリング比を推定し,任意のタスクに対して最適なポリシで定常分布補正を効果的に行う。
論文 参考訳(メタデータ) (2026-02-02T11:06:31Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Towards Monotonic Improvement in In-Context Reinforcement Learning [18.67894044930047]
In-Context Reinforcement Learning (ICRL)は、新しいタスクに迅速に適応できるエージェントを開発するための有望なパラダイムとして登場した。
最近のアプローチでは、オンラインRLからモノトニックポリシー改善データに関する大規模なシーケンスモデルをトレーニングしており、テスト時間のパフォーマンスを継続的に改善することを目指している。
学習時間とテスト時間の両方でコンテキスト値を推定する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T09:42:19Z) - Adaptive Policy Backbone via Shared Network [7.589048964013273]
強化学習(Reinforcement Learning, RL)は、ドメイン間で印象的な結果を得たが、最適なポリシを学ぶには、通常、広範囲なインタラクションデータが必要である。
本稿では,共有バックボーンの前後に軽量な線形層を挿入するメタトランスファーRL手法であるAdaptive Policy Backbone (APB)を提案する。
論文 参考訳(メタデータ) (2025-09-26T13:14:03Z) - Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning [0.0]
本稿では,価値関数の初期化を深層強化学習に適用するDQInitを紹介する。
DQInitは、以前に解決されたタスクから抽出されたコンパクトQ値を転送可能な知識ベースとして再利用する。
知識に基づくメカニズムを用いて、これらの伝達された値を未探索領域にソフトに統合し、徐々にエージェントの学習された推定値にシフトする。
論文 参考訳(メタデータ) (2025-08-12T18:32:08Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。