論文の概要: Enforcing Task-Specified Compliance Bounds for Humanoids via Anisotropic Lipschitz-Constrained Policies
- arxiv url: http://arxiv.org/abs/2603.16180v1
- Date: Tue, 17 Mar 2026 07:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.889766
- Title: Enforcing Task-Specified Compliance Bounds for Humanoids via Anisotropic Lipschitz-Constrained Policies
- Title(参考訳): 異方性リプシッツ制約ポリシによるヒューマノイドのタスク特定コンプライアンス境界の強化
- Authors: Zewen He, Yoshihiko Nakamura,
- Abstract要約: 我々は,タスク空間の剛性の上界をヤコビアン政策上の状態依存リプシッツ式制約にマッピングする異方性リプシッツ制約ポリシー(ALCP)を提案する。
結果として生じる制約は、ヒンジ二乗スペクトルノルムのペナルティを通じてRLトレーニング中に実施され、物理的解釈性を維持しながら、方向依存のコンプライアンスを可能にする。
- 参考スコア(独自算出の注目度): 1.7446104539598897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated substantial potential for humanoid bipedal locomotion and the control of complex motions. To cope with oscillations and impacts induced by environmental interactions, compliant control is widely regarded as an effective remedy. However, the model-free nature of RL makes it difficult to impose task-specified and quantitatively verifiable compliance objectives, and classical model-based stiffness designs are not directly applicable. Lipschitz-Constrained Policies (LCP), which regularize the local sensitivity of a policy via gradient penalties, have recently been used to smooth humanoid motions. Nevertheless, existing LCP-based methods typically employ a single scalar Lipschitz budget and lack an explicit connection to physically meaningful compliance specifications in real-world systems. In this study, we propose an anisotropic Lipschitz-constrained policy (ALCP) that maps a task-space stiffness upper bound to a state-dependent Lipschitz-style constraint on the policy Jacobian. The resulting constraint is enforced during RL training via a hinge-squared spectral-norm penalty, preserving physical interpretability while enabling direction-dependent compliance. Experiments on humanoid robots show that ALCP improves locomotion stability and impact robustness, while reducing oscillations and energy usage.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ヒューマノイドの2足歩行と複雑な運動の制御に有意な可能性を証明している。
環境相互作用によって引き起こされる振動や衝撃に対処するため、コンプライアンス制御は有効な治療法として広く見なされている。
しかし、RLのモデルフリー性は、タスク特定かつ定量的に検証可能なコンプライアンス目的を課すことを難しくし、古典的なモデルベース剛性設計は直接適用できない。
リプシッツ拘束型政策(LCP)は、近年人体運動の円滑化に用いられている。
それでも、既存のLCPベースの手法は、通常、単一のスカラーのリプシッツ予算を使い、現実世界のシステムにおいて物理的に意味のあるコンプライアンス仕様との明確なつながりを欠いている。
本研究では,タスク空間の剛性の上界をヤコビアン上の状態依存リプシッツ式制約にマッピングする異方性リプシッツ制約ポリシ(ALCP)を提案する。
結果として生じる制約は、ヒンジ二乗スペクトルノルムのペナルティを通じてRLトレーニング中に実施され、物理的解釈性を維持しながら、方向依存のコンプライアンスを可能にする。
人型ロボットの実験では、ALCPは振動とエネルギーの使用を減らしながら、運動安定性とロバスト性を改善することが示されている。
関連論文リスト
- JAWS: Enhancing Long-term Rollout of Neural Operators via Spatially-Adaptive Jacobian Regularization [0.0]
Jacobian-Adaptive Weighting for Stability (JAWS)は、これらの制限を軽減するために設計された確率的正規化戦略である。
空間的不確実性を伴う最大Aポストエリオーリ(MAP)推定として演算子学習をフレーミングすることにより、JAWSは局所的な物理的複雑さに基づいて正規化強度を動的に変調する。
実験により、この空間適応型プリコンディショナーが有効スペクトルプレコンディショナーとして機能し、高周波不安定性を扱う際のベースオペレータの負担を軽減することが示されている。
論文 参考訳(メタデータ) (2026-03-04T06:15:09Z) - Direct Soft-Policy Sampling via Langevin Dynamics [4.94481688445056]
Langevin Q-Learning (NCLQL) は、順次スムーズな値エントロピーを誘導するノイズ条件付きQ-関数を学習する。
OpenAI Gym MuJoCoベンチマークでは、NC-LQLはオンラインRLにシンプルだが強力なソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-08T09:01:54Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Robust Behavior Cloning Via Global Lipschitz Regularization [0.5767156832161817]
行動クローニングは効果的な模倣学習技術であり、自動運転車のような安全上重要な領域でも採用されている。
我々は、学習したポリシーネットワークの堅牢性を高めるために、グローバルなリプシッツ正規化アプローチを使用する。
ポリシの堅牢性を保証するために,リプシッツニューラルネットワークを構築する方法を提案する。
論文 参考訳(メタデータ) (2025-06-24T02:19:08Z) - Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion [12.790605143952996]
この研究は、リプシッツ連続性を強制する効率的な代替としてスペクトル正規化(SN)を提案する。
SNは、GPUメモリ使用量を大幅に削減しながら、高周波ポリシーの変動を効果的に制限する。
シミュレーションと実世界のヒューマノイドロボットを用いた実験により,SNは勾配ペナルティ法に匹敵する性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-11T04:12:15Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。