論文の概要: Balancing Plasticity and Stability with Fast and Slow Successor Features
- arxiv url: http://arxiv.org/abs/2605.26357v2
- Date: Wed, 27 May 2026 14:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.081137
- Title: Balancing Plasticity and Stability with Fast and Slow Successor Features
- Title(参考訳): 高速・低速継手特性による塑性と安定性のバランス
- Authors: Raymond Chua, Doina Precup, Blake Richards,
- Abstract要約: 持続的環境変化下での安定性と適応がパフォーマンスに与える影響について検討する。
その結果, 可塑性に着目したシナプス強化などの安定性向上手法が優れていることがわかった。
- 参考スコア(独自算出の注目度): 29.71873686385453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A hallmark of intelligence is the ability to adapt in non-stationary environments, yet deep Reinforcement Learning (RL) agents often struggle in such settings. Prior studies introduce non-stationarity through abrupt shifts in features or dynamics, whereas real-world environments often evolve gradually through continual drift. This distinction has important implications for the "stability-plasticity dilemma" in RL, as abrupt task changes may demand more plasticity than naturalistic settings. To address this, we modify existing 3D Miniworld and MuJoCo environments to incorporate naturalistic, continual non-stationarity, and use them to examine how stability and adaptation affect performance under continuous environmental change. We find that methods favoring stability, such as synaptic consolidation, outperform approaches focused on plasticity, such as parameters resetting. Motivated by this result, and prior evidence that Successor Features (SFs) reduce interference, we investigate whether SFs are better consolidation targets than Q-values. Across both environments, applying neuro-inspired synaptic consolidation to SFs yields superior performance on continually changing settings. Moreover, consolidation is most effective when SFs are stabilized across multiple timescales, which capture complementary aspects of gradual environmental change. Together, these results suggest that stability is more critical in continual learning when changes are gradual, and that multi-timescale consolidation of predictive representations is an effective approach.
- Abstract(参考訳): 知能の目印は、非定常環境で適応する能力であるが、深層強化学習(RL)エージェントはそのような設定でしばしば苦労する。
以前の研究では、特徴やダイナミクスの急激なシフトによって非定常性が導入されていたが、現実の環境は連続的なドリフトを通じて徐々に進化することが多い。
この区別はRLの「安定性-塑性ジレンマ」に重要な意味を持ち、急激なタスク変更は自然主義的な設定よりも可塑性を必要とする可能性がある。
そこで本研究では,自然主義的かつ連続的な非定常性を組み込むため,既存の3D MiniworldとMuJoCo環境を改良し,その安定性と適応性が連続的な環境変化における性能に与える影響について検討する。
シナプスの固化など安定性を優先する手法は, パラメータリセットなどの可塑性に着目した手法よりも優れていた。
この結果と、後継特徴量(SF)が干渉を減少させる前の証拠から、SFがQ値よりも統合目標であるかどうかを考察する。
両方の環境にまたがって、神経刺激によるシナプス統合をSFに適用すると、継続的に変化する設定において優れた性能が得られる。
さらに, 段階的環境変化の相補的な側面を捉えた複数の時間スケールでSFを安定化させる場合, コンソリデーションが最も効果的である。
これらの結果から,変化が段階的に変化する場合,安定性は継続学習においてより重要であることが示唆され,予測表現のマルチ・タイム・スケール統合が効果的なアプローチであることが示唆された。
関連論文リスト
- When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - Noradrenergic-inspired gain modulation attenuates the stability gap in joint training [44.99833362998488]
連続学習の研究は、安定性ギャップとして知られる新しいタスクを同化する際に、マスターされたタスクのパフォーマンスが過度に低下することを発見した。
タスク境界における迅速な適応と堅牢な保持のバランスの不均衡を反映していると我々は主張する。
結節性好中球を介するノルアドレナリン系バーストに着想を得て,不確実性変調ゲインダイナミクスを提案する。
論文 参考訳(メタデータ) (2025-07-18T16:34:06Z) - Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks [0.22499166814992438]
継続学習アルゴリズムは、事前情報を保持しながら、新しい知識を獲得しようとする。
これらのアルゴリズムは、しばしば安定性を強調し、新しいタスクを学習する際のネットワーク更新を制限する。
しかし、すべては有害か?
本稿では,ニューラルネットワークの活性化空間を2つの部分空間に分解できることを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:54:43Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。