論文の概要: Task Scheduling & Forgetting in Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.01941v1
- Date: Mon, 03 Mar 2025 14:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:42.272382
- Title: Task Scheduling & Forgetting in Multi-Task Reinforcement Learning
- Title(参考訳): マルチタスク強化学習におけるタスクスケジューリングと予測
- Authors: Marc Speckmann, Theresa Eimer,
- Abstract要約: 強化学習(RL)エージェントは、以前トレーニングされたタスクを忘れることができる。
多くの場合、RLエージェントは、人間のものと似た、忘れる曲線を示す。
非対称な学習パターンと、保持ベースやパフォーマンスベースのカリキュラム戦略では達成できないタスク間の保持パターンを識別する。
- 参考スコア(独自算出の注目度): 1.966567278076331
- License:
- Abstract: Reinforcement learning (RL) agents can forget tasks they have previously been trained on. There is a rich body of work on such forgetting effects in humans. Therefore we look for commonalities in the forgetting behavior of humans and RL agents across tasks and test the viability of forgetting prevention measures from learning theory in RL. We find that in many cases, RL agents exhibit forgetting curves similar to those of humans. Methods like Leitner or SuperMemo have been shown to be effective at counteracting human forgetting, but we demonstrate they do not transfer as well to RL. We identify a likely cause: asymmetrical learning and retention patterns between tasks that cannot be captured by retention-based or performance-based curriculum strategies.
- Abstract(参考訳): 強化学習(RL)エージェントは、以前トレーニングされたタスクを忘れることができる。
人間にそのような忘れられる影響について、豊富な研究がなされている。
そこで我々は,人間とRLエージェントのタスク間の忘れ行動の共通点を探り,RLの学習理論から防止策を忘れることの可能性を検証した。
多くの場合、RLエージェントは人間のものと似た、忘れる曲線を示す。
Leitner や SuperMemo のような手法は人間の忘れを抑えるのに有効であることが示されているが、我々はそれらが RL にうまく移行しないことを示した。
非対称な学習パターンと、保持ベースやパフォーマンスベースのカリキュラム戦略では達成できないタスク間の保持パターンを識別する。
関連論文リスト
- RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。
RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。
我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。
RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文 参考訳(メタデータ) (2024-11-13T07:24:14Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Machine versus Human Attention in Deep Reinforcement Learning Tasks [38.80270891345248]
タスク実行中の画素を解析することで、そのような訓練されたモデルの内面動作に光を当てた。
我々は,アタリゲームを学習する際,RLエージェントのサリエンシマップと,人間の専門家の視覚的注意モデルを比較した。
論文 参考訳(メタデータ) (2020-10-29T20:58:45Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。