論文の概要: Embedding Classical Balance Control Principles in Reinforcement Learning for Humanoid Recovery
- arxiv url: http://arxiv.org/abs/2603.08619v1
- Date: Mon, 09 Mar 2026 17:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.118168
- Title: Embedding Classical Balance Control Principles in Reinforcement Learning for Humanoid Recovery
- Title(参考訳): ヒューマノイド回復のための強化学習における古典的バランス制御原理の埋め込み
- Authors: Nehar Poddar, Stephen McCrory, Luigi Penco, Geoffrey Clark, Hakki Erhan Svil, Robert Griffin,
- Abstract要約: 人間は転倒や回復不能な障害状態に対して脆弱であり、非構造化環境での実用性を制限する。
古典的バランス指標を埋め込むことにより、この制限に対処する統一的なRLポリシーを提案する。
このポリシーは、ランダム化された初期ポーズと記述されていないフォール設定で93.4%のリカバリ率を達成する。
- 参考スコア(独自算出の注目度): 1.0883174135300417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots remain vulnerable to falls and unrecoverable failure states, limiting their practical utility in unstructured environments. While reinforcement learning has demonstrated stand-up behaviors, existing approaches treat recovery as a pure task-reward problem without an explicit representation of the balance state. We present a unified RL policy that addresses this limitation by embedding classical balance metrics: capture point, center-of-mass state, and centroidal momentum, as privileged critic inputs and shaping rewards directly around these quantities during training, while the actor relies solely on proprioception for zero-shot hardware transfer. Without reference trajectories or scripted contacts, a single policy spans the full recovery spectrum: ankle and hip strategies for small disturbances, corrective stepping under large pushes, and compliant falling with multi-contact stand-up using the hands, elbows, and knees. Trained on the Unitree H1-2 in Isaac Lab, the policy achieves a 93.4% recovery rate across randomized initial poses and unscripted fall configurations. An ablation study shows that removing the balance-informed structure causes stand-up learning to fail entirely, confirming that these metrics provide a meaningful learning signal rather than incidental structure. Sim-to-sim transfer to MuJoCo and preliminary hardware experiments further demonstrate cross-environment generalization. These results show that embedding interpretable balance structure into the learning framework substantially reduces time spent in failure states and broadens the envelope of autonomous recovery.
- Abstract(参考訳): ヒューマノイドロボットは転倒や回復不能な故障状態に弱いままであり、非構造環境における実用性を制限している。
強化学習はスタンドアップ動作を示したが、既存のアプローチでは、バランス状態の明示的な表現なしに、リカバリを純粋なタスク・リワード問題として扱う。
本稿では、この制限に古典的バランス指標を組み込むことにより対処する統一されたRLポリシーを提案する。
基準軌跡や台本のない1つのポリシーは、小さな障害に対する足首と腰の戦略、大きな押し込みの修正ステップ、そして手、肘、膝を使って複数の接触したスタンドアップに適合する、完全な回復スペクトルにまたがる。
アイザック研究所 (Isaac Lab) のユニツリー H1-2 で訓練されたこのポリシーは、ランダム化された初期ポーズと記述されていないフォール構成で93.4%の回復率を達成する。
アブレーション研究では、バランスインフォームド構造を取り除くことでスタンドアップ学習は完全に失敗し、これらの指標が偶発的構造よりも有意義な学習信号を提供することを確認した。
Mod-to-sim の MuJoCo への移行と予備ハードウェア実験により、クロス環境の一般化がさらに実証された。
これらの結果から,解釈可能なバランス構造を学習フレームワークに組み込むことで,障害状態に費やした時間を大幅に削減し,自律的回復のエンベロープを大きくすることがわかった。
関連論文リスト
- What Makes Value Learning Efficient in Residual Reinforcement Learning? [57.635661297706065]
残留強化学習(Residual reinforcement learning, RL)は、ベースを凍結し、境界修正のみを学習することにより、表現的事前訓練政策の安定したオンライン改善を可能にする。
本研究では,冷戦開始の病理学において,批判者が基本方針に関する価値景観の知識を欠いている点と,構造的スケールミスマッチという2つの主要なボトルネックを同定する。
残差RLにおける効率的な値学習を目的とした最小限のアプローチであるDAWNを提案する。
論文 参考訳(メタデータ) (2026-02-11T05:25:39Z) - Cerebellar-Inspired Residual Control for Fault Recovery: From Inference-Time Adaptation to Structural Consolidation [2.0421986354783437]
我々は、オンラインの修正行動によって凍結強化学習ポリシーを強化する、推論時、小脳にインスパイアされた残留制御フレームワークを導入する。
このフレームワークは、固定された特徴拡張による高次元パターン分離を含む中核小脳の原理をインスタンス化する。
MuJoCoベンチマークの実験では、TextttHalfCheetah-v5で最大$+66%、適度な欠陥下でのtextttHumanoid-v5で$+53%の改善が示されている。
論文 参考訳(メタデータ) (2026-02-06T22:16:00Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Towards Control-Centric Representations in Reinforcement Learning from
Images [43.21376020617722]
ReBisは、報酬なしの制御情報と報酬特化知識を統合することで、制御中心の情報を取得することを目指している。
AtariゲームとDeepMind Control Suitを含む2つの大規模なベンチマークに関する実証研究は、ReBisが既存の方法よりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-10-25T14:09:53Z) - Characterization of Human Balance through a Reinforcement Learning-based
Muscle Controller [1.5469452301122177]
身体リハビリテーション中のバランスアセスメントは、しばしば患者の身体能力を評価するためにルーリック指向のバッテリーテストに依存し、主観性につながる。
本研究は, 重心状態空間(COM)の利用について検討し, ヒトのバランス能力を監視するための有望な道を示す。
論文 参考訳(メタデータ) (2023-08-08T01:53:26Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。