Fugu-MT 論文翻訳(概要): Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning

論文の概要: Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.15414v1
Date: Thu, 16 Apr 2026 17:06:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:19.596285
Title: Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning
Title（参考訳）: シングルモデル最適化を超えて - 継続強化学習における塑性保存
Authors: Lute Lillo, Nick Cheney,
Abstract要約: 我々は、行動的に多様なポリシー地区をタスクごとのアーカイブに整理する連続的なRLフレームワークであるtextscTeLAPA(Transfer-Enabled Latent-Aligned Policy Archives)を紹介する。我々のMiniGrid CL設定では、textscTeLAPAはより多くのタスクを正常に学習し、干渉後の修正タスクの能力回復を高速化し、タスクのシーケンス間で高いパフォーマンスを維持する。
参考スコア（独自算出の注目度）: 1.618563064839635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continual reinforcement learning must balance retention with adaptation, yet many methods still rely on \emph{single-model preservation}, committing to one evolving policy as the main reusable solution across tasks. Even when a previously successful policy is retained, it may no longer provide a reliable starting point for rapid adaptation after interference, reflecting a form of \emph{loss of plasticity} that single-policy preservation cannot address. Inspired by quality-diversity methods, we introduce \textsc{TeLAPA} (Transfer-Enabled Latent-Aligned Policy Archives), a continual RL framework that organizes behaviorally diverse policy neighborhoods into per-task archives and maintains a shared latent space so that archived policies remain comparable and reusable under non-stationary drift. This perspective shifts continual RL from retaining isolated solutions to maintaining \emph{skill-aligned neighborhoods} with competent and behaviorally related policies that support future relearning. In our MiniGrid CL setting, \textsc{TeLAPA} learns more tasks successfully, recovers competence faster on revisited tasks after interference, and retains higher performance across a sequence of tasks. Our analyses show that source-optimal policies are often not transfer-optimal, even within a local competent neighborhood, and that effective reuse depends on retaining and selecting among multiple nearby alternatives rather than collapsing them to one representative. Together, these results reframe continual RL around reusable and competent policy neighborhoods, providing a route beyond single-model preservation toward more plastic lifelong agents.
Abstract（参考訳）: 継続的な強化学習は、保持と適応のバランスをとる必要があるが、多くの方法は依然として 'emph{single-model storage} に依存しており、タスクをまたいだ主要な再利用可能なソリューションとして1つの進化したポリシーにコミットする。以前成功した政策が維持されたとしても、単一政治保存が対処できない「可塑性の恵み」の形を反映して、干渉後の迅速な適応のための信頼性の高い出発点をもはや提供しないかもしれない。品質多様性の手法に着想を得て,行動に多様性のあるポリシー地区をタスクごとのアーカイブに整理し,共有潜在空間を維持して,非定常ドリフト下でのアーカイブポリシーと同等かつ再利用可能な,連続的なRLフレームワークである \textsc{TeLAPA}(Transfer-Enabled Latent-Aligned Policy Archives)を紹介した。この観点は、連続的なRLが孤立したソリューションを維持することから、'emph{skill-aligned neighborhoods'を維持することへ移行し、将来の再学習を支援する有能で行動に関連した政策へと移行する。我々のMiniGrid CL設定では、 \textsc{TeLAPA}はより多くのタスクを正常に学習し、干渉後の再検討タスクのコンピテンスを高速に回復し、タスクのシーケンス間で高いパフォーマンスを維持する。筆者らは, 資源最適化政策は, 地域有能な地区においても, 転送最適ではない場合が多く, 有効再利用は, 一つの代表に分解するのではなく, 近隣の複数の選択肢の維持・選択に依存することを示した。これらの結果は、再利用可能で有能な政策地区を中心に連続的なRLを再構築し、よりプラスチック寿命の長い物質への単一モデル保存を超えた経路を提供する。

関連論文リスト

Latent Policy Steering through One-Step Flow Policies [34.06099184809882]
オフライン強化学習(RL)により、ロボットはリスクを伴わないオフラインデータセットから学習することができる。遅延ポリシーステアリング(LPS)は、一段階のMeanFlowポリシを通じて、原アクション空間のQ段階をバックプロパゲートすることで、高忠実な遅延ポリシーの改善を可能にする。 OGBenchと現実世界のロボットタスク全体で、LPSは最先端のパフォーマンスを達成し、行動的クローン化と強力な潜在的ステアリングベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-03-05T15:38:08Z)
Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization [2.595968385299781]
多目的強化学習は、複数の、しばしば矛盾する目標のバランスをとる政策を学ぼうとする。 PPOベースのフレームワークである$D3PO$を導入し、これらの問題に直接対処するために、多目的ポリシー最適化を再編成する。 D3PO$は、分解された最適化パイプラインを通じてオブジェクトごとの学習信号を保存し、安定化後にのみ好みを統合する。
論文参考訳（メタデータ） (2026-02-08T01:45:01Z)
Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文参考訳（メタデータ） (2026-01-29T21:52:06Z)
Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文参考訳（メタデータ） (2025-09-29T19:32:11Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
Agent based modelling for continuously varying supply chains [4.163948606359882]
本稿では, エージェントが様々なサプライチェーン問題を制御できるかどうかを検討する。最先端の強化学習(RL)アルゴリズムを2つ比較した。結果は、バッチ環境で採用されるリーン戦略が、さまざまな製品を持つ環境で採用されている戦略と異なることを示している。
論文参考訳（メタデータ） (2023-12-24T15:04:46Z)
IOB: Integrating Optimization Transfer and Behavior Transfer for Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文参考訳（メタデータ） (2023-08-14T09:22:35Z)
Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文参考訳（メタデータ） (2022-06-22T19:00:08Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。