論文の概要: Cerebellar-Inspired Residual Control for Fault Recovery: From Inference-Time Adaptation to Structural Consolidation
- arxiv url: http://arxiv.org/abs/2602.07227v1
- Date: Fri, 06 Feb 2026 22:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.519318
- Title: Cerebellar-Inspired Residual Control for Fault Recovery: From Inference-Time Adaptation to Structural Consolidation
- Title(参考訳): 小脳刺激による断層回復のための残留制御:推定時間適応から構造整合へ
- Authors: Nethmi Jayasinghe, Diana Gontero, Spencer T. Brown, Vinod K. Sangwan, Mark C. Hersam, Amit Ranjan Trivedi,
- Abstract要約: 我々は、オンラインの修正行動によって凍結強化学習ポリシーを強化する、推論時、小脳にインスパイアされた残留制御フレームワークを導入する。
このフレームワークは、固定された特徴拡張による高次元パターン分離を含む中核小脳の原理をインスタンス化する。
MuJoCoベンチマークの実験では、TextttHalfCheetah-v5で最大$+66%、適度な欠陥下でのtextttHumanoid-v5で$+53%の改善が示されている。
- 参考スコア(独自算出の注目度): 2.0421986354783437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic policies deployed in real-world environments often encounter post-training faults, where retraining, exploration, or system identification are impractical. We introduce an inference-time, cerebellar-inspired residual control framework that augments a frozen reinforcement learning policy with online corrective actions, enabling fault recovery without modifying base policy parameters. The framework instantiates core cerebellar principles, including high-dimensional pattern separation via fixed feature expansion, parallel microzone-style residual pathways, and local error-driven plasticity with excitatory and inhibitory eligibility traces operating at distinct time scales. These mechanisms enable fast, localized correction under post-training disturbances while avoiding destabilizing global policy updates. A conservative, performance-driven meta-adaptation regulates residual authority and plasticity, preserving nominal behavior and suppressing unnecessary intervention. Experiments on MuJoCo benchmarks under actuator, dynamic, and environmental perturbations show improvements of up to $+66\%$ on \texttt{HalfCheetah-v5} and $+53\%$ on \texttt{Humanoid-v5} under moderate faults, with graceful degradation under severe shifts and complementary robustness from consolidating persistent residual corrections into policy parameters.
- Abstract(参考訳): 現実の環境で展開されるロボットポリシーは、再訓練、探索、システム識別が非現実的なポストトレーニングの障害に遭遇することが多い。
我々は,オンラインの修正行動によって凍結強化学習ポリシーを強化し,基本方針パラメータを変更することなく障害復旧を可能にする,推論時,小脳刺激による残留制御フレームワークを導入する。
このフレームワークは、固定された特徴展開による高次元パターン分離、平行なミクロゾーンスタイルの残留経路、興奮性および抑制性良性トレースを異なる時間スケールで動作させる局所的エラー駆動可塑性など、中核小脳の原理をインスタンス化する。
これらのメカニズムは、グローバルなポリシー更新の不安定さを回避しつつ、トレーニング後の障害の下で、高速で局所的な修正を可能にする。
保守的で、パフォーマンス駆動のメタ適応は、残留的な権威と可塑性を規制し、名目的な振る舞いを保ち、不必要な介入を抑制する。
アクチュエータ, 動的, 環境摂動条件下での MuJoCo のベンチマーク実験では, 過度な断層下での texttt{HalfCheetah-v5} における 最大$+66\% と $+53\% の改善が見られた。
関連論文リスト
- AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments [7.201566646241765]
コンフォーマル予測法は、コンフォーマル閾値を適応的にスケーリングすることで目標範囲を維持する。
この固定幾何は, 環境が構造変化を起こすと, 極めて保守的で, 容積非効率な予測領域につながることを示す。
非整合スコアパラメータと整合しきい値の両方をオンライン化するためのフレームワークである textbfAdaptNC を提案する。
論文 参考訳(メタデータ) (2026-02-02T04:41:35Z) - Unraveling the Hidden Dynamical Structure in Recurrent Neural Policies [26.411234883034407]
リカレントニューラルポリシーは、部分的に観察可能な制御やメタRLタスクで広く使われている。
安定な循環構造は環境との相互作用の間に常に現れる。
これらの知見は、リカレントポリシーの多くの優れた特性を説明するために、新しい視点を提供する。
論文 参考訳(メタデータ) (2026-02-01T12:37:42Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - TopoReformer: Mitigating Adversarial Attacks Using Topological Purification in OCR Models [2.8272661103123258]
テキストの逆摂動画像は、OCRシステムが人間の目に見えない変化から誤った書き起こしや誤った書き起こしを発生させる可能性がある。
既存の防御、例えば、敵の訓練、入力前処理、あるいは認識後の補正は、しばしばモデル固有であり、計算的に高価であり、摂動しない入力のパフォーマンスに影響する。
TopoReformerは、テキストイメージの構造的整合性を保ちながら、敵対的摂動を緩和するモデルに依存しない改革パイプラインである。
論文 参考訳(メタデータ) (2025-11-19T19:01:51Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。