論文の概要: Towards Provable Emergence of In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.18389v2
- Date: Fri, 03 Oct 2025 13:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.886025
- Title: Towards Provable Emergence of In-Context Reinforcement Learning
- Title(参考訳): インテクスト強化学習の創発に向けて
- Authors: Jiuqi Wang, Rohan Chandra, Shangtong Zhang,
- Abstract要約: いくつかの強化学習(RL)エージェントは、タスク分布の事前学習後にパラメータを更新することなく、広範囲に分散したタスクを解くことができる。
パラメータ更新を行う代わりに、新しいタスクで評価されると、事前訓練されたエージェントは、コンテキストと呼ばれる追加の入力に対してポリシーを条件付ける。
この現象は一般に in-context RL (ICRL) と呼ばれる。
- 参考スコア(独自算出の注目度): 20.54963042400693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typically, a modern reinforcement learning (RL) agent solves a task by updating its neural network parameters to adapt its policy to the task. Recently, it has been observed that some RL agents can solve a wide range of new out-of-distribution tasks without parameter updates after pretraining on some task distribution. When evaluated in a new task, instead of making parameter updates, the pretrained agent conditions its policy on additional input called the context, e.g., the agent's interaction history in the new task. The agent's performance increases as the information in the context increases, with the agent's parameters fixed. This phenomenon is typically called in-context RL (ICRL). The pretrained parameters of the agent network enable the remarkable ICRL phenomenon. However, many ICRL works perform the pretraining with standard RL algorithms. This raises the central question this paper aims to address: Why can the RL pretraining algorithm generate network parameters that enable ICRL? We hypothesize that the parameters capable of ICRL are minimizers of the pretraining loss. This work provides initial support for this hypothesis through a case study. In particular, we prove that when a Transformer is pretrained for policy evaluation, one of the global minimizers of the pretraining loss can enable in-context temporal difference learning.
- Abstract(参考訳): 通常、現代の強化学習(RL)エージェントは、ニューラルネットワークパラメータを更新してタスクにポリシーを適用することでタスクを解決する。
近年,一部のRLエージェントは,タスク分布の事前学習後,パラメータ更新を伴わずに,広範囲に分散できないタスクを解くことができることが報告されている。
新しいタスクで評価されると、パラメータを更新するのではなく、事前訓練されたエージェントは、新しいタスクにおけるエージェントのインタラクション履歴であるコンテキストと呼ばれる追加入力に対してポリシーを条件付ける。
エージェントのパフォーマンスは、エージェントのパラメータが固定されるにつれて、コンテキスト内の情報が増加するにつれて増加する。
この現象は典型的には in-context RL (ICRL) と呼ばれる。
エージェントネットワークの事前訓練されたパラメータは、顕著なICRL現象を可能にする。
しかし、多くのICRLは標準のRLアルゴリズムで事前学習を行う。
RL事前学習アルゴリズムはなぜICRLを可能にするネットワークパラメータを生成することができるのか?
我々は、ICRLのパラメータが事前学習損失の最小化要因であると仮定する。
この研究は、ケーススタディを通じて、この仮説を初期サポートします。
特に、トランスフォーマーが政策評価のために事前訓練されている場合、事前学習損失の最小化の1つが、文脈内時間差学習を可能にすることを証明している。
関連論文リスト
- A Survey of In-Context Reinforcement Learning [41.74105124619678]
一部のエージェントは、追加のコンテキストを条件付けするだけで、パラメータを更新することなく、新しいタスクを解決できる。
本稿では,テキスト内強化学習(in-context reinforcement learning)として知られる,そのような行動に関する調査を行う。
論文 参考訳(メタデータ) (2025-02-11T21:52:19Z) - Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning [17.714908233024847]
強化学習(RL)エージェントは、タスク環境とのインタラクションを通じてニューラルネットワークパラメータを更新することで、新しいタスクの解決を学ぶ。
最近の研究は、一部のRLエージェントが、特定の事前訓練手順の後に、パラメーター更新なしで見知らぬ新しいタスクを解くことができることを示した。
論文 参考訳(メタデータ) (2024-05-22T17:38:16Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。