論文の概要: SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.10306v1
- Date: Wed, 11 Mar 2026 01:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.653564
- Title: SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning
- Title(参考訳): SteadyTray:残留強化学習によるヒューマノイドトレー輸送における物体バランスタスクの学習
- Authors: Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip,
- Abstract要約: 本稿では、ペイロード安定化から移動を明示的に分離する階層型強化学習アーキテクチャであるReST-RLを紹介する。
シミュレーションでは、残差設計は歩行の滑らかさと方向精度において、エンドツーエンドのベースラインを著しく上回る。
このモジュラーアプローチは、様々な物体をまたいだ高信頼性ゼロショット sim-to-real 一般化と外部力の乱れを示す。
- 参考スコア(独自算出の注目度): 4.827821660801356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stabilizing unsecured payloads against the inherent oscillations of dynamic bipedal locomotion remains a critical engineering bottleneck for humanoids in unstructured environments. To solve this, we introduce ReST-RL, a hierarchical reinforcement learning architecture that explicitly decouples locomotion from payload stabilization, evaluated via the SteadyTray benchmark. Rather than relying on monolithic end-to-end learning, our framework integrates a robust base locomotion policy with a dynamic residual module engineered to actively cancel gait-induced perturbations at the end-effector. This architectural separation ensures steady tray transport without degrading the underlying bipedal stability. In simulation, the residual design significantly outperforms end-to-end baselines in gait smoothness and orientation accuracy, achieving a 96.9% success rate in variable velocity tracking and 74.5% robustness against external force disturbances. Successfully deployed on the Unitree G1 humanoid hardware, this modular approach demonstrates highly reliable zero-shot sim-to-real generalization across various objects and external force disturbances.
- Abstract(参考訳): 動的二足歩行の固有振動に対する安全でないペイロードの安定化は、非構造環境におけるヒューマノイドにとって重要な工学的ボトルネックである。
そこで本稿では,SteadyTrayベンチマークを用いて,ロコモーションをペイロード安定化から明確に分離する階層型強化学習アーキテクチャであるReST-RLを提案する。
我々のフレームワークは、モノリシックなエンドツーエンド学習に頼るのではなく、堅牢なベースロコモーションポリシーと動的残留モジュールを統合し、エンドエフェクタでの歩行誘発摂動を積極的にキャンセルする。
この構造分離により、基礎となる二足歩行安定性を低下させることなく安定したトレー輸送が保証される。
シミュレーションでは、残留設計は歩行の滑らかさと方向精度においてエンドツーエンドのベースラインを著しく上回り、変動速度追跡において96.9%の成功率、外力の乱れに対する74.5%の堅牢性を達成した。
このモジュラー手法は、Unitree G1のヒューマノイドハードウェア上での展開に成功し、様々な物体や外力の乱れに対する高信頼のゼロショット・シム・トゥ・リアルな一般化を示す。
関連論文リスト
- CycleRL: Sim-to-Real Deep Reinforcement Learning for Robust Autonomous Bicycle Control [10.350603824555408]
CycleRLは、堅牢な自律自転車制御のための初めてのシミュレート・トゥ・リアルな深層強化学習フレームワークである。
シミュレーションでは、CycleRLは99.90%のバランス成功率、1.15の低ステアリング追尾誤差、0.18m/sの速度追尾誤差など、かなりの性能を達成する。
論文 参考訳(メタデータ) (2026-03-16T09:17:51Z) - ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning [6.13534373131836]
本稿では,ケーブルサスペンションシステムの自律逆飛行を初めて成功させた,ロバストなRLフレームワークであるASTERについて述べる。
我々は、複雑な軌道を横断する顕著な俊敏性、正確な姿勢アライメント、ロバストなゼロショット・シム・トゥ・リアルトランスファーを示す。
論文 参考訳(メタデータ) (2026-03-11T12:40:29Z) - Transformer-Based Reinforcement Learning for Autonomous Orbital Collision Avoidance in Partially Observable Environments [0.3093890460224435]
自律軌道衝突回避のためのトランスフォーマーに基づく強化学習フレームワークを提案する。
この研究の中心的な貢献は、トランスフォーマーベースのPartially Observable Markov Decision Processアーキテクチャの利用である。
この統合は、不完全な監視環境下でより確実に動作可能な衝突回避エージェントを訓練するための基盤を提供する。
論文 参考訳(メタデータ) (2026-02-05T04:57:58Z) - SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Feed Two Birds with One Scone: Exploiting Function-Space Regularization for Both OOD Robustness and ID Fine-Tuning Performance [72.57668440744301]
シミュレーションOODサンプルを用いて,関数空間における微調整モデルと事前学習モデルの距離を制約する新しい正規化を提案する。
このアプローチは、ダウンストリームタスクIDの微調整性能と、さまざまなCLIPバックボーン間のOODロバスト性の両方を一貫して改善できる。
論文 参考訳(メタデータ) (2025-08-31T12:14:34Z) - Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.510040541600176]
コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文 参考訳(メタデータ) (2025-08-11T09:03:10Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。