論文の概要: Rethinking the Foundations for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08161v2
- Date: Sat, 12 Jul 2025 00:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:07.038291
- Title: Rethinking the Foundations for Continual Reinforcement Learning
- Title(参考訳): 継続的強化学習の基礎の再考
- Authors: Michael Bowling, Esraa Elelimy,
- Abstract要約: まず,従来の強化学習の基礎が連続的な強化学習パラダイムに適しているかを検討する。
継続学習の目標に反する従来の強化学習基盤の4つの重要な柱を同定する。
- 参考スコア(独自算出の注目度): 9.81003561034599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the traditional view of reinforcement learning, the agent's goal is to find an optimal policy that maximizes its expected sum of rewards. Once the agent finds this policy, the learning ends. This view contrasts with \emph{continual reinforcement learning}, where learning does not end, and agents are expected to continually learn and adapt indefinitely. Despite the clear distinction between these two paradigms of learning, much of the progress in continual reinforcement learning has been shaped by foundations rooted in the traditional view of reinforcement learning. In this paper, we first examine whether the foundations of traditional reinforcement learning are suitable for the continual reinforcement learning paradigm. We identify four key pillars of the traditional reinforcement learning foundations that are antithetical to the goals of continual learning: the Markov decision process formalism, the focus on atemporal artifacts, the expected sum of rewards as an evaluation metric, and episodic benchmark environments that embrace the other three foundations. We then propose a new formalism that sheds the first and the third foundations and replaces them with the history process as a mathematical formalism and a new definition of deviation regret, adapted for continual learning, as an evaluation metric. Finally, we discuss possible approaches to shed the other two foundations.
- Abstract(参考訳): 従来の強化学習の観点では、エージェントの目標は、期待される報酬の総和を最大化する最適なポリシーを見つけることである。
エージェントがこのポリシーを見つけたら、学習は終了する。
この見解は、学習が終わらず、エージェントが継続的に学習し、無限に適応することが期待される「emph{continual reinforcement learning}」とは対照的である。
これら2つの学習パラダイムの明確な区別にもかかわらず、継続的な強化学習の進歩の多くは、従来の強化学習の考え方に根ざした基礎によって形成されてきた。
本稿では,従来の強化学習の基礎が継続的強化学習パラダイムに適しているかを検討する。
マルコフ決定過程の定式化,時間的アーティファクトの重視,評価指標として期待される報酬の合計,および他の3つの基礎を取り入れたエピソードベンチマーク環境の4つの柱を同定する。
次に,第1および第3の基礎を隠蔽する新しい形式主義を提案し,数学的な形式主義としての歴史過程に置き換わり,連続的な学習に適応した逸脱の新たな定義を評価指標として提案する。
最後に、他の2つの基礎を取り除くためのアプローチについて議論する。
関連論文リスト
- The Future of Continual Learning in the Era of Foundation Models: Three Key Directions [3.805777835466912]
継続的学習は3つの重要な理由から不可欠である、と我々は主張する。
我々は、連続的な学習の再生を象徴する連続的な構成性について論じている。
AIの未来は、単一の静的モデルではなく、継続的に進化し、相互作用するモデルのエコシステムによって定義される。
論文 参考訳(メタデータ) (2025-06-03T19:06:41Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Adapting Double Q-Learning for Continuous Reinforcement Learning [0.65268245109828]
本稿では,Double Q-Learningと同様のバイアス補正手法を提案する。
提案手法は,少数の MuJoCo 環境において,SOTA 近傍で有望な結果を示す。
論文 参考訳(メタデータ) (2023-09-25T19:09:54Z) - A Definition of Continual Reinforcement Learning [69.56273766737527]
強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。
継続的強化学習とは、最高のエージェントが決して学習をやめない状態を指す。
エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめることはない」エージェントの概念を定式化する。
論文 参考訳(メタデータ) (2023-07-20T17:28:01Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Hardness in Markov Decision Processes: Theory and Practice [0.0]
本稿では,有望な研究方向性を識別する硬さ理論の体系的な調査を行う。
第2に,経験的硬さ解析を可能にする先駆的パッケージであるColosseumを紹介する。
第3に、計算可能な測度に関する新たな洞察を提供する経験的分析を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:51:31Z) - Susceptibility of Continual Learning Against Adversarial Attacks [1.3749490831384268]
本研究では,現在および以前取得したタスクを含む継続的な学習課題の敵攻撃に対する感受性について検討する。
このような学習タスクの攻撃に対する感受性や脆弱性は、データの完全性とプライバシに関する深刻な懸念を引き起こす。
本稿では,正規化に基づく3つの手法,リプレイに基づく3つのアプローチ,リプレイと模範的アプローチを組み合わせた1つのハイブリッド手法の堅牢性について検討する。
論文 参考訳(メタデータ) (2022-07-11T23:45:12Z) - On Credit Assignment in Hierarchical Reinforcement Learning [0.0]
階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
例えば、1ステップの階層的なバックアップは、従来のマルチステップのバックアップとして、時間の経過とともに$n$のスキップ接続が可能であることを示す。
我々は新しい階層型アルゴリズム Hier$Q_k(lambda)$ を開発し、これは階層型クレジット代入だけでエージェントのパフォーマンスを向上できることを示す。
論文 参考訳(メタデータ) (2022-03-07T11:13:09Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Recent advances in deep learning theory [104.01582662336256]
本稿では,近年のディープラーニング理論の進歩をレビューし,整理する。
文献は,(1)深層学習の一般化可能性を分析する複雑性とキャパシティに基づくアプローチ,(2)勾配降下とその変種をモデル化するための微分方程式とその力学系,(3)動的システムの軌道を駆動する損失景観の幾何学的構造,(5)ネットワークアーキテクチャにおけるいくつかの特別な構造の理論的基礎,の6つのグループに分類される。
論文 参考訳(メタデータ) (2020-12-20T14:16:41Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Tracking the Race Between Deep Reinforcement Learning and Imitation
Learning -- Extended Version [0.0]
我々は、強化学習領域であるRacetrackからベンチマーク計画問題を考える。
本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。
論文 参考訳(メタデータ) (2020-08-03T10:31:44Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。