論文の概要: Constraint-Enhanced Reinforcement Learning Based on Dynamic Decoupled Spherical Radial Squashing
- arxiv url: http://arxiv.org/abs/2605.04185v1
- Date: Tue, 05 May 2026 18:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.480954
- Title: Constraint-Enhanced Reinforcement Learning Based on Dynamic Decoupled Spherical Radial Squashing
- Title(参考訳): 動的非結合球状ラジアルスクアッシングに基づく制約強化強化強化学習
- Authors: Qijun Liao, Zhaoxin Yu, Jue Yang,
- Abstract要約: 各関節が制御ステップごとにどれだけ速く動けるかは、避けられない。
既存の方法は等方性球形の制約を課し、指数関数的に真の実現可能な集合を覆い隠す。
本稿では,ダイナミックデカップリング型球状ラジアルスクアッシング(DD-SRad)を提案する。
Unitree H1とG1のヒューマノイドロボットによる実験は、公式な共同仕様から直接パラメータ化されたエンドツーエンドの最適性を確認する。
- 参考スコア(独自算出の注目度): 1.2036262042590717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying reinforcement learning policies to physical robots, actuator rate constraints -- hard limits on how fast each joint can move per control step -- are unavoidable. These limits vary substantially across joints due to differences in motor inertia, power bandwidth, and transmission stiffness, creating pronounced heterogeneity that existing methods fail to handle geometrically: the per-joint feasible region forms a high-dimensional box in action-increment space, yet QP projection and spherical parameterization methods impose isotropic ball-shaped constraints, exponentially under-covering the true feasible set as heterogeneity grows. This paper proposes Dynamic Decoupled Spherical Radial Squashing (DD-SRad), which resolves this mismatch by computing a position-adaptive radius independently for each actuator, achieving tight alignment with the true per-joint feasible region. DD-SRad satisfies per-step hard constraints with probability~1, preserves well-conditioned gradients throughout training, and admits exact policy gradient backpropagation with zero runtime solver overhead. MuJoCo benchmark experiments demonstrate the highest task return at zero constraint violation -- matching the unconstrained upper bound -- with 30%--50% improvement in constraint-space coverage over spherical baselines. High-fidelity IsaacLab simulations with Unitree H1 and G1 humanoid robots confirm end-to-end optimality parameterized directly from official joint specifications, validating a systematic pathway from hardware datasheets to safe deployment.
- Abstract(参考訳): 物理的なロボットに強化学習ポリシーを展開する際には、アクチュエーターレートの制約 -- 制御ステップ毎に各関節がどれだけ速く動けるかの制約 -- は避けられない。
これらの制限は、運動慣性、パワーバンド幅、伝達剛性の違いにより、関節間で大きく異なり、既存の方法では幾何的に扱えない顕著な不均一性を生み出している: 接合部ごとの可能な領域は、アクション・インクリメント空間において高次元のボックスを形成するが、QPプロジェクションと球面パラメータ化法は、等方的球形制約を課し、ヘテロジニティが増大するにつれて、真の実現可能な集合を指数的に過小評価する。
本稿では,各アクチュエータに対して独立に位置適応半径を計算することで,このミスマッチを解決するダイナミックデカップリング球状ラジアルスクアッシング(DD-SRad)を提案する。
DD-SRadは、確率~1のステップごとのハード制約を満たし、トレーニング全体を通して十分に条件付き勾配を維持し、ランタイムソルバのオーバーヘッドをゼロにする正確なポリシー勾配のバックプロパゲーションを認めている。
MuJoCoベンチマーク実験では、ゼロ制約違反時のタスクリターンが最も高い -- 制約のない上限値に一致した -- と、球面ベースラインよりも制約空間カバレッジが30%--50%改善されたことを実証している。
Unitree H1とG1のヒューマノイドロボットを用いたIsaacLabのシミュレーションでは、公式な共同仕様から直接パラメータ化されたエンドツーエンドの最適性を確認し、ハードウェアデータシートから安全なデプロイメントまでの体系的な経路を検証する。
関連論文リスト
- Learning Reactive Dexterous Grasping via Hierarchical Task-Space RL Planning and Joint-Space QP Control [50.28263951510334]
本稿では,リアクティブなデクスタリーグルーピングのためのハイブリッド階層型制御フレームワークを提案する。
提案手法は,低レベル共同実行から高レベル空間意図を明示的に分離する。
我々は厳密なシミュレーションと現実のパイプラインを通して提案したフレームワークを広範囲に検証する。
論文 参考訳(メタデータ) (2026-05-05T04:49:38Z) - Physics-Informed Reinforcement Learning of Spatial Density Velocity Potentials for Map-Free Racing [73.88859384645264]
Out-Of-Distribution (OOD) の様々なレーストラックへの一般化は、機械学習(ML)を用いて、エンドツーエンド制御のためのセンサデータと車両アクチュエーターの間の数学的関係を符号化する。
本稿では,非幾何学的,物理インフォームド報酬を用いた深度測定のスペクトル分布から非線形車両動特性をパラメータ化して,ニューラルネットワーク(ANN)による車両の時間最適・乗換レース制御を推定するDRL法を提案する。
このポリシーは、経験的なパセジカタイヤモデルに似たタイヤのダイナミックスで摩擦円を最大化することで、OODトラックの12%で人間のデモより優れています。
論文 参考訳(メタデータ) (2026-04-10T17:12:07Z) - Coordinated Manipulation of Hybrid Deformable-Rigid Objects in Constrained Environments [3.915966095774856]
本研究は, ひずみに基づくコッサートロッドモデルを用いた準静電最適化に基づく操作プランナを提案する。
これは、厳密なツールで到達不能なオブジェクトに対して、タスク空間の目的を達成する一方で、制約を通して操作するための変形可能なリンクのコンプライアンスを利用する。
提案アルゴリズムは、様々なhDLOシステム上でのシミュレーションや、双腕ロボットシステムを用いた制約環境で操作された3リンクhDLOの実験で検証される。
論文 参考訳(メタデータ) (2026-03-13T12:34:49Z) - Fast and Safe Trajectory Optimization for Mobile Manipulators With Neural Configuration Space Distance Field [34.07401865897874]
Generalized Space Fields (GCDF) は、ベースアーム結合を移動マニピュレータに拡張するために使用できる。
GCDFは、非有界空間における全体構成をエンコードする。
我々はGCDFに基づく推論を中心に,高性能な最適化解法を開発した。
論文 参考訳(メタデータ) (2026-01-26T14:55:26Z) - GLOBE: Accurate and Generalizable PDE Surrogates using Domain-Inspired Architectures and Equivariances [0.0]
GLOBEは、学習可能なグリーン関数のようなカーネルの重ね合わせとして、境界面からターゲットへ評価されるソリューションである。
AirFRANSでは、GLOBEは相当な精度向上を実現している。
結果は、厳密な物理学とドメインにインスパイアされた帰納的バイアスが、精度、一般化可能性、実用性に大きな利益をもたらすことを示した。
論文 参考訳(メタデータ) (2025-11-19T20:23:51Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking [50.200035833530876]
RobotDancingはシンプルでスケーラブルなフレームワークで、残留する関節の目標を予測して、ダイナミックスの不一致を明示的に修正する。
複数分間の高エネルギー動作(ジャンプ、スピン、カートホイール)をトラッキングし、高いモーショントラッキング品質のハードウェアにゼロショットをデプロイする。
論文 参考訳(メタデータ) (2025-09-25T03:30:34Z) - SAFE--MA--RRT: Multi-Agent Motion Planning with Data-Driven Safety Certificates [6.77934423529734]
本稿では,同種線形マルチエージェントシステムのための完全なデータ駆動型モーションプランニングフレームワークを提案する。
各エージェントは実験データからクローズドループの挙動を独立に学習する。
サンプリングベースのプランナーは、隣接する楕円体が重なり合う場合にのみ遷移が許されるような経路点のツリーを構築する。
論文 参考訳(メタデータ) (2025-09-04T17:34:59Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Fast Gravitational Approach for Rigid Point Set Registration with
Ordinary Differential Equations [79.71184760864507]
本稿では,FGA(Fast Gravitational Approach)と呼ばれる厳密な点集合アライメントのための物理に基づく新しい手法を紹介する。
FGAでは、ソースとターゲットの点集合は、シミュレーションされた重力場内を移動しながら、世界規模で多重リンクされた方法で相互作用する質量を持つ剛体粒子群として解釈される。
従来のアライメント手法では,新しいメソッドクラスには特徴がないことを示す。
論文 参考訳(メタデータ) (2020-09-28T15:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。