論文の概要: Rethinking the Foundations for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08161v1
- Date: Thu, 10 Apr 2025 23:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:53.416479
- Title: Rethinking the Foundations for Continual Reinforcement Learning
- Title(参考訳): 継続的強化学習の基礎の再考
- Authors: Michael Bowling, Esraa Elelimy,
- Abstract要約: 従来のRLのコア基盤の多くは、継続的な強化学習の目標に反するものであることを示唆する。
マルコフ決定過程の定式化、最適政策への焦点、評価基準として期待される報酬の合計、エピソードベンチマーク環境の4つの基礎を列挙する。
連続的な学習環境に適した4つの基礎の代替集合を提案する。
- 参考スコア(独自算出の注目度): 9.81003561034599
- License:
- Abstract: Algorithms and approaches for continual reinforcement learning have gained increasing attention. Much of this early progress rests on the foundations and standard practices of traditional reinforcement learning, without questioning if they are well-suited to the challenges of continual learning agents. We suggest that many core foundations of traditional RL are, in fact, antithetical to the goals of continual reinforcement learning. We enumerate four such foundations: the Markov decision process formalism, a focus on optimal policies, the expected sum of rewards as the primary evaluation metric, and episodic benchmark environments that embrace the other three foundations. Shedding such sacredly held and taught concepts is not easy. They are self-reinforcing in that each foundation depends upon and holds up the others, making it hard to rethink each in isolation. We propose an alternative set of all four foundations that are better suited to the continual learning setting. We hope to spur on others in rethinking the traditional foundations, proposing and critiquing alternatives, and developing new algorithms and approaches enabled by better-suited foundations.
- Abstract(参考訳): 継続的強化学習のためのアルゴリズムとアプローチが注目されている。
この初期の進歩の多くは、継続学習エージェントの課題に適しているかどうかを疑問視することなく、伝統的な強化学習の基礎と標準的実践に依存している。
従来のRLの中核となる基盤の多くは、実際、継続的な強化学習の目標に反するものであることを示唆する。
マルコフ決定過程の定式化、最適政策への焦点、主要な評価指標として期待される報酬の合計、他の3つの基礎を取り入れたエピソードベンチマーク環境の4つの基礎を列挙する。
このような神聖に保持され、教えられた概念を産むのは容易ではない。
彼らは、それぞれの基盤が他に依存し、他を支えているという点で自己強化しているため、それぞれを独立して再考することは困難である。
連続的な学習環境に適した4つの基礎の代替集合を提案する。
私たちは、従来の基盤を再考し、代替案を提案し、批判し、より適した基盤によって実現された新しいアルゴリズムとアプローチを開発することで、他の人を刺激したいと考えています。
関連論文リスト
- Adapting Double Q-Learning for Continuous Reinforcement Learning [0.65268245109828]
本稿では,Double Q-Learningと同様のバイアス補正手法を提案する。
提案手法は,少数の MuJoCo 環境において,SOTA 近傍で有望な結果を示す。
論文 参考訳(メタデータ) (2023-09-25T19:09:54Z) - A Definition of Continual Reinforcement Learning [69.56273766737527]
強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。
継続的強化学習とは、最高のエージェントが決して学習をやめない状態を指す。
エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめることはない」エージェントの概念を定式化する。
論文 参考訳(メタデータ) (2023-07-20T17:28:01Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Hardness in Markov Decision Processes: Theory and Practice [0.0]
本稿では,有望な研究方向性を識別する硬さ理論の体系的な調査を行う。
第2に,経験的硬さ解析を可能にする先駆的パッケージであるColosseumを紹介する。
第3に、計算可能な測度に関する新たな洞察を提供する経験的分析を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:51:31Z) - On Credit Assignment in Hierarchical Reinforcement Learning [0.0]
階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
例えば、1ステップの階層的なバックアップは、従来のマルチステップのバックアップとして、時間の経過とともに$n$のスキップ接続が可能であることを示す。
我々は新しい階層型アルゴリズム Hier$Q_k(lambda)$ を開発し、これは階層型クレジット代入だけでエージェントのパフォーマンスを向上できることを示す。
論文 参考訳(メタデータ) (2022-03-07T11:13:09Z) - Recent advances in deep learning theory [104.01582662336256]
本稿では,近年のディープラーニング理論の進歩をレビューし,整理する。
文献は,(1)深層学習の一般化可能性を分析する複雑性とキャパシティに基づくアプローチ,(2)勾配降下とその変種をモデル化するための微分方程式とその力学系,(3)動的システムの軌道を駆動する損失景観の幾何学的構造,(5)ネットワークアーキテクチャにおけるいくつかの特別な構造の理論的基礎,の6つのグループに分類される。
論文 参考訳(メタデータ) (2020-12-20T14:16:41Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Tracking the Race Between Deep Reinforcement Learning and Imitation
Learning -- Extended Version [0.0]
我々は、強化学習領域であるRacetrackからベンチマーク計画問題を考える。
本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。
論文 参考訳(メタデータ) (2020-08-03T10:31:44Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。