論文の概要: Residual Control for Fast Recovery from Dynamics Shifts
- arxiv url: http://arxiv.org/abs/2603.07775v1
- Date: Sun, 08 Mar 2026 19:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.069374
- Title: Residual Control for Fast Recovery from Dynamics Shifts
- Title(参考訳): ダイナミクスシフトからの高速回復のための残留制御
- Authors: Nethmi Jayasinghe, Diana Gontero, Francesco Migliarba, Spencer T. Brown, Vinod K. Sangwan, Mark C. Hersam, Amit Ranjan Trivedi,
- Abstract要約: 観測不能なダイナミクスシフトは、ロボットシステムにおいてかなり過渡的なパフォーマンス劣化を経験することができる。
そこで本稿では,名目力学の下で訓練された強化学習ポリシーをデプロイ時に固定した,安定性に整合した残留制御アーキテクチャを提案する。
提案手法は, ほぼ最小の定常状態性能を維持しつつ, 凍結・オンライン適応ベースラインに対する回復時間を一定に短縮することを示す。
- 参考スコア(独自算出の注目度): 1.9446811955039964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic systems operating in real-world environments inevitably encounter unobserved dynamics shifts during continuous execution, including changes in actuation, mass distribution, or contact conditions. When such shifts occur mid-episode, even locally stabilizing learned policies can experience substantial transient performance degradation. While input-to-state stability guarantees bounded state deviation, it does not ensure rapid restoration of task-level performance. We address inference-time recovery under frozen policy parameters by casting adaptation as constrained disturbance shaping around a nominal stabilizing controller. We propose a stability-aligned residual control architecture in which a reinforcement learning policy trained under nominal dynamics remains fixed at deployment, and adaptation occurs exclusively through a bounded additive residual channel. A Stability Alignment Gate (SAG) regulates corrective authority through magnitude constraints, directional coherence with the nominal action, performance-conditioned activation, and adaptive gain modulation. These mechanisms preserve the nominal closed-loop structure while enabling rapid compensation for unobserved dynamics shifts without retraining or privileged disturbance information. Across mid-episode perturbations including actuator degradation, mass variation, and contact changes, the proposed method consistently reduces recovery time relative to frozen and online-adaptation baselines while maintaining near-nominal steady-state performance. Recovery time is reduced by \textbf{87\%} on the Go1 quadruped, \textbf{48\%} on the Cassie biped, \textbf{30\%} on the H1 humanoid, and \textbf{20\%} on the Scout wheeled platform on average across evaluated conditions relative to a frozen SAC policy.
- Abstract(参考訳): 現実の環境で動作しているロボットシステムは、アクティベーション、質量分布、接触条件の変化を含む、継続的な実行中に必然的に観測されないダイナミクスのシフトに遭遇する。
このようなシフトが発生すると、局所的な安定化された学習ポリシーでさえ、実質的な一時的なパフォーマンス劣化を経験することができる。
インプット・ツー・ステートの安定性は境界状態のずれを保証しますが、タスクレベルのパフォーマンスの迅速な回復は保証しません。
本研究では, 条件パラメータの凍結条件下での予測時間回復を, 名目安定化制御器を囲む拘束外乱形状に適応させることにより解決する。
本稿では, 動的に訓練された強化学習ポリシーを展開時に固定し, 適応を限定的に有界加法的残差チャネルを介して行う, 安定性に整合した残差制御アーキテクチャを提案する。
安定アライメントゲート(SAG)は、大域的制約、名目的行動との方向性の整合性、性能条件付きアクティベーション、適応利得変調を通じて補正権限を規制する。
これらのメカニズムは、リトレーニングや特権外乱情報なしに、未観測のダイナミクスシフトに対する迅速な補償を可能にしながら、名目上の閉ループ構造を保存する。
アクチュエータ劣化, 質量変動, 接触変化など, エピソード中の摂動を横切ると, ほぼノンミナルな定常性能を維持しつつ, 凍結およびオンライン適応ベースラインに対する回復時間を連続的に短縮する。
回収時間は、Go1の4倍体上の \textbf{87\%} 、Cassieの2倍体上の \textbf{48\%} 、H1のヒューマノイド上の \textbf{30\%} 、凍結したSACポリシーに対する評価条件を平均して、スカウト輪プラットフォーム上の \textbf{20\%} によって短縮される。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - Cerebellar-Inspired Residual Control for Fault Recovery: From Inference-Time Adaptation to Structural Consolidation [2.0421986354783437]
我々は、オンラインの修正行動によって凍結強化学習ポリシーを強化する、推論時、小脳にインスパイアされた残留制御フレームワークを導入する。
このフレームワークは、固定された特徴拡張による高次元パターン分離を含む中核小脳の原理をインスタンス化する。
MuJoCoベンチマークの実験では、TextttHalfCheetah-v5で最大$+66%、適度な欠陥下でのtextttHumanoid-v5で$+53%の改善が示されている。
論文 参考訳(メタデータ) (2026-02-06T22:16:00Z) - AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments [7.201566646241765]
コンフォーマル予測法は、コンフォーマル閾値を適応的にスケーリングすることで目標範囲を維持する。
この固定幾何は, 環境が構造変化を起こすと, 極めて保守的で, 容積非効率な予測領域につながることを示す。
非整合スコアパラメータと整合しきい値の両方をオンライン化するためのフレームワークである textbfAdaptNC を提案する。
論文 参考訳(メタデータ) (2026-02-02T04:41:35Z) - Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - Automatic Stability and Recovery for Neural Network Training [1.9544213396776273]
現代のニューラルネットワークのトレーニングはますます脆弱になり、まれだが深刻な不安定な更新は、しばしば不可逆的なばらつきやサイレントな劣化を引き起こす。
既存の最適化手法は、安定性プローブに埋め込まれた防止機構に依存しており、不安定性を検出して回復する能力に制限がある。
最適化を制御実行プロセスとして扱う監視フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-24T15:14:54Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Stabilization via feedback switching for quantum stochastic dynamics [0.0]
本稿では,連続的な測定プロセスの出力と散逸制御を切り替えて速度を向上する,量子系における純粋状態と部分空間の準備法を提案する。
提案した閉ループ戦略は,平均的かつほぼ確実に目標をグローバルに安定させ,時間的および状態的切換制御法と好適に比較できることを示す。
論文 参考訳(メタデータ) (2020-12-16T02:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。