論文の概要: Forager: a lightweight testbed for continual learning with partial observability in RL
- arxiv url: http://arxiv.org/abs/2605.01131v1
- Date: Fri, 01 May 2026 22:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.599468
- Title: Forager: a lightweight testbed for continual learning with partial observability in RL
- Title(参考訳): Forager: RLにおける部分的可観測性を備えた連続学習のための軽量テストベッド
- Authors: Steven Tang, Xinze Xiong, Anna Hakhverdyan, Andrew Patterson, Jacob Adkins, Jiamin He, Esraa Elelimy, Parham Mohammad Panahi, Martha White, Adam White,
- Abstract要約: メモリフットプリントが一定である軽量部分観測可能なCRL環境であるForagerを紹介する。
物質が可塑性を損なうことを実証し、提案された緩和が有効であるが、最も有用なのは状態構築を活用することである。
- 参考スコア(独自算出の注目度): 16.170153193588266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In continual reinforcement learning (CRL), good performance requires never-ending learning, acting, and exploration in a big, partially observable world. Most CRL experiments have focused on loss of plasticity -- the inability to keep learning -- in one-off experiments where some unobservable non-stationarity is added to classic fully observable MDPs. Further, these experiments rarely consider the role of partial observability and the importance of CRL agents that use memory or recurrence. One potential reason for this focus on mitigating loss of plasticity without considering partial observability is that many partially-observable CRL environments are prohibitively expensive. In this paper, we introduce Forager, a light-weight partially-observable CRL environment with a constant memory footprint. We provide a set of experiments and sample tasks demonstrating that Forager is challenging for current CRL agents and yet also allows for in-depth study of those agents. We demonstrate that agents exhibit loss of plasticity, proposed mitigations can help, but that most useful is to leverage state construction. We conclude with a variant of Forager that generates an unending stream of new tasks to learn that clearly highlights the limitations of current CRL agents.
- Abstract(参考訳): 継続的強化学習(CRL)では、優れたパフォーマンスは、大きく、部分的に観察可能な世界において、絶え間なく学習、行動、探索を必要とする。
ほとんどのCRL実験は、古典的な完全観測可能なMDPに観測不能な非定常性が加えられるワンオフ実験において、学習を続けることができない可塑性の喪失に焦点を当てている。
さらに、これらの実験は、部分観察可能性の役割と、記憶または再発を使用するCRLエージェントの重要性をめったに考慮しない。
部分的な可観測性を考慮することなく、可塑性の損失を軽減することに注力する潜在的な理由の1つは、多くの部分観測可能なCRL環境が違法に高価であることである。
本稿では,メモリフットプリントが一定である軽量部分観測可能なCRL環境であるForagerを紹介する。
我々は、Foragerが現在のCRLエージェントに挑戦していることを示す実験とサンプルタスクのセットを提供するとともに、これらのエージェントの詳細な研究を可能にする。
物質が可塑性を損なうことを実証し、提案された緩和が有効であるが、最も有用なのは状態構築を活用することである。
我々は、現在のCRLエージェントの制限を明確に強調する、新しいタスクの継続ストリームを生成するForagerの亜種で締めくくります。
関連論文リスト
- SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models [51.99912169291891]
強化学習(Reinforcement Learning, RL)は、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。
逆強化学習(IRL)で従来のRLをインターリーブする学習パラダイムを提案する。
この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-04-18T13:49:47Z) - ProCeedRL: Process Critic with Exploratory Demonstration Reinforcement Learning for LLM Agentic Reasoning [13.041618832271737]
強化学習(RL)は、大規模言語モデルの推論能力を大幅に向上させる。
これをマルチターンエージェントタスクに適用することは、相互作用の長い水平の性質のため、依然として困難である。
本稿では,ProCeedRL:Explorative Demonstration RLによるプロセス批判を提案する。
論文 参考訳(メタデータ) (2026-04-02T13:10:06Z) - From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones [68.68686526804909]
LLMは、既存のスキルを組み込むことで、RL中に真に新しいスキルを身につけることができることを示す。
実験により、ソースタスクで得られた構成スキルが、異なるターゲットタスクに転送されることを示す。
この転送は、ターゲットに対する構成的なトレーニングなしでも行われ、ターゲットの原子スキルに関する事前の知識のみを必要とする。
論文 参考訳(メタデータ) (2025-09-29T17:44:27Z) - Replay across Experiments: A Natural Extension of Off-Policy RL [18.545939667810565]
複数の実験にまたがってリプレイを効果的に拡張するフレームワークを提案する。
コアとなるReplay Across Experiments (RaE)は、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善する。
我々は、多数のRLアルゴリズムにまたがる利点を実証的に示し、移動と操作の両方にまたがる制御領域に挑戦する。
論文 参考訳(メタデータ) (2023-11-27T15:57:11Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。