論文の概要: CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies
- arxiv url: http://arxiv.org/abs/2602.15367v1
- Date: Tue, 17 Feb 2026 05:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.986911
- Title: CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies
- Title(参考訳): CDRL:脳回路と樹状計算戦略に触発された強化学習フレームワーク
- Authors: Sibo Zhang, Rui Jing, Liangfu Lv, Jian Zhang, Yunliang Zang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、高次元の逐次意思決定タスクにおいて顕著な性能を発揮した。
本稿では, 大規模拡張, 疎結合, 疎活性化, 樹状突起レベルの変調を組み込んだ生物基盤型RLアーキテクチャを提案する。
ノイズの多い高次元RLベンチマークの実験では、小脳アーキテクチャと樹状調節の両方が、従来の設計に比べて標本効率、堅牢性、一般化を一貫して改善していることが示されている。
- 参考スコア(独自算出の注目度): 4.274782706616976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved notable performance in high-dimensional sequential decision-making tasks, yet remains limited by low sample efficiency, sensitivity to noise, and weak generalization under partial observability. Most existing approaches address these issues primarily through optimization strategies, while the role of architectural priors in shaping representation learning and decision dynamics is less explored. Inspired by structural principles of the cerebellum, we propose a biologically grounded RL architecture that incorporate large expansion, sparse connectivity, sparse activation, and dendritic-level modulation. Experiments on noisy, high-dimensional RL benchmarks show that both the cerebellar architecture and dendritic modulation consistently improve sample efficiency, robustness, and generalization compared to conventional designs. Sensitivity analysis of architectural parameters suggests that cerebellum-inspired structures can offer optimized performance for RL with constrained model parameters. Overall, our work underscores the value of cerebellar structural priors as effective inductive biases for RL.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は, 高次元連続決定タスクにおいて顕著な性能を達成しているが, 低サンプリング効率, 雑音に対する感受性, 部分観測可能性下での弱一般化によって制限されている。
既存のほとんどのアプローチは、最適化戦略によってこれらの問題に対処するが、表現学習と決定力学を形作る上でのアーキテクチャ的事前の役割は、あまり検討されていない。
小脳の構造原理に着想を得て, 大規模拡張, 疎結合, 疎活性化, 樹状突起レベルの変調を組み込んだ生物基盤型RLアーキテクチャを提案する。
ノイズの多い高次元RLベンチマークの実験では、小脳アーキテクチャと樹状調節の両方が、従来の設計に比べて標本効率、堅牢性、一般化を一貫して改善していることが示されている。
アーキテクチャパラメータの感度解析は、小脳にインスパイアされた構造は、制約されたモデルパラメータを持つRLに対して最適化された性能を提供できることを示唆している。
総じて、本研究は、小脳構造前駆体の価値を、RLの効果的な誘導バイアスとして評価している。
関連論文リスト
- Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T05:47:48Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - Emergence of hybrid computational dynamics through reinforcement learning [0.0]
強化学習と教師付き学習がニューラルネットワークを根本的に異なる計算ソリューションへと導くことを示す。
また,RL彫刻は暗黙の正則化の強力な形態を通じて,機能的にバランスのとれた神経集団を彫刻することを示した。
本結果は,創発的計算の第一決定因子として学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2025-10-13T08:53:59Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Are Large Brainwave Foundation Models Capable Yet? Insights from Fine-tuning [41.40603531008809]
我々は、系統的な微調整実験により、現在の大脳波基礎モデル(LBM)を評価する。
我々の分析によると、最先端のLBMは従来のディープアーキテクチャよりも限界的な改善(0.9%-1.2%)しか得られていない。
論文 参考訳(メタデータ) (2025-07-01T21:21:42Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel
Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。
我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。
我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文 参考訳(メタデータ) (2023-08-01T09:31:51Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。