論文の概要: Self-Composing Policies for Scalable Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.14811v1
- Date: Wed, 04 Jun 2025 15:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.697029
- Title: Self-Composing Policies for Scalable Continual Reinforcement Learning
- Title(参考訳): スケーラブルな連続強化学習のための自己コンパイル型ポリシー
- Authors: Mikel Malagón, Josu Ceberio, Jose A. Lozano,
- Abstract要約: この研究は成長可能なモジュラーニューラルネットワークアーキテクチャを導入し、継続的な強化学習における破滅的な忘れと干渉を自然に回避する。
各モジュールの構造は、既存のポリシーと内部ポリシーを選択的に組み合わせることを可能にし、現在のタスクにおける学習プロセスを加速させる。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work introduces a growable and modular neural network architecture that naturally avoids catastrophic forgetting and interference in continual reinforcement learning. The structure of each module allows the selective combination of previous policies along with its internal policy, accelerating the learning process on the current task. Unlike previous growing neural network approaches, we show that the number of parameters of the proposed approach grows linearly with respect to the number of tasks, and does not sacrifice plasticity to scale. Experiments conducted in benchmark continuous control and visual problems reveal that the proposed approach achieves greater knowledge transfer and performance than alternative methods.
- Abstract(参考訳): この研究は成長可能なモジュラーニューラルネットワークアーキテクチャを導入し、継続的な強化学習における破滅的な忘れと干渉を自然に回避する。
各モジュールの構造は、既存のポリシーと内部ポリシーを選択的に組み合わせることを可能にし、現在のタスクにおける学習プロセスを加速させる。
従来のニューラルネットワークアプローチとは異なり、提案手法のパラメータ数はタスク数に対して線形に増加し、スケールする可塑性を犠牲にしないことを示す。
ベンチマーク連続制御と視覚的問題による実験により,提案手法が代替手法よりも優れた知識伝達と性能を実現することが明らかになった。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。
SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。
提案手法の有効性を評価するため,幅広い実験が実施されている。
論文 参考訳(メタデータ) (2025-04-14T15:22:51Z) - Continual Learning via Sequential Function-Space Variational Inference [65.96686740015902]
連続学習を逐次関数空間変動推論として定式化した目的を提案する。
ニューラルネットワークの予測を直接正規化する目的と比較して、提案した目的はより柔軟な変動分布を可能にする。
タスクシーケンスの範囲で、逐次関数空間変動推論によってトレーニングされたニューラルネットワークは、関連する手法でトレーニングされたネットワークよりも予測精度が良いことを実証した。
論文 参考訳(メタデータ) (2023-12-28T18:44:32Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Continual Learning Beyond a Single Model [28.130513524601145]
そこで本研究では,アンサンブルモデルを用いることで,連続的な性能向上を図った。
本稿では,単一モデルに類似した実行時間を持つ計算コストの低いアルゴリズムを提案し,アンサンブルの性能上の利点を享受する。
論文 参考訳(メタデータ) (2022-02-20T14:30:39Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。