Fugu-MT 論文翻訳(概要): A Survey of In-Context Reinforcement Learning

論文の概要: A Survey of In-Context Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.07978v1
Date: Tue, 11 Feb 2025 21:52:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.788718
Title: A Survey of In-Context Reinforcement Learning
Title（参考訳）: インテクスト強化学習に関する調査研究
Authors: Amir Moeini, Jiuqi Wang, Jacob Beck, Ethan Blaser, Shimon Whiteson, Rohan Chandra, Shangtong Zhang,
Abstract要約: 一部のエージェントは、追加のコンテキストを条件付けするだけで、パラメータを更新することなく、新しいタスクを解決できる。本稿では,テキスト内強化学習(in-context reinforcement learning)として知られる,そのような行動に関する調査を行う。
参考スコア（独自算出の注目度）: 41.74105124619678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) agents typically optimize their policies by performing expensive backward passes to update their network parameters. However, some agents can solve new tasks without updating any parameters by simply conditioning on additional context such as their action-observation histories. This paper surveys work on such behavior, known as in-context reinforcement learning.
Abstract（参考訳）: 強化学習(RL)エージェントは通常、ネットワークパラメータを更新するために高価な後方パスを実行することで、ポリシーを最適化する。しかし、いくつかのエージェントは、アクション・オブザーブレーション履歴のような追加のコンテキストを単に条件付けすることで、パラメータを更新することなく、新しいタスクを解決できる。本稿では,テキスト内強化学習(in-context reinforcement learning)として知られる,そのような行動に関する調査を行う。

関連論文リスト

Learning Distinguishable Representations in Deep Q-Networks for Linear Transfer [0.9558392439655014]
本稿では,状態の特徴表現間の正の相関を減少させるために,正規化項を導入する新しいQ-ラーニング手法を提案する。転送学習性能の向上と計算オーバーヘッドの低減に本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-09-29T15:44:35Z)
Towards Provable Emergence of In-Context Reinforcement Learning [20.54963042400693]
いくつかの強化学習(RL)エージェントは、タスク分布の事前学習後にパラメータを更新することなく、広範囲に分散したタスクを解くことができる。パラメータ更新を行う代わりに、新しいタスクで評価されると、事前訓練されたエージェントは、コンテキストと呼ばれる追加の入力に対してポリシーを条件付ける。この現象は一般に in-context RL (ICRL) と呼ばれる。
論文参考訳（メタデータ） (2025-09-22T20:23:09Z)
RAG-RL: Advancing Retrieval-Augmented Generation via RL and Curriculum Learning [11.872929831119661]
本稿では、検索強化生成(RAG)設定に特化して訓練された最初の推論言語モデル(RLM)であるRAG-RLを紹介する。 RAG-RLは、より強力な回答生成モデルにより、検索された情報のより大きなセット内で関連するコンテキストを識別できることを実証する。強化学習(RL)後学習プロセスにおけるカリキュラム設計は,モデル性能向上のための強力なアプローチであることを示す。
論文参考訳（メタデータ） (2025-03-17T02:53:42Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。 Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。 Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文参考訳（メタデータ） (2024-10-03T17:58:11Z)
Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning [17.714908233024847]
強化学習(RL)エージェントは、タスク環境とのインタラクションを通じてニューラルネットワークパラメータを更新することで、新しいタスクの解決を学ぶ。最近の研究は、一部のRLエージェントが、特定の事前訓練手順の後に、パラメーター更新なしで見知らぬ新しいタスクを解くことができることを示した。
論文参考訳（メタデータ） (2024-05-22T17:38:16Z)
Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。この研究はメタRL、文脈RL、伝達学習に関連している。提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文参考訳（メタデータ） (2022-11-28T15:48:35Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
New Insights on Reducing Abrupt Representation Change in Online Continual Learning [69.05515249097208]
我々は、以前に観測されていないクラスが入ってくるデータストリームに現れるときに発生する観測データの表現の変化に焦点を当てる。 Experience Replayを適用すると、新たに追加されたクラスの表現が以前のクラスと大幅に重複することを示します。本稿では,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。
論文参考訳（メタデータ） (2022-03-08T01:37:00Z)
What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文参考訳（メタデータ） (2021-04-29T20:34:39Z)
Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。 ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。 ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-06T05:51:38Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)
Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文参考訳（メタデータ） (2020-02-19T19:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。