論文の概要: Residual Reinforcement Learning for Waste-Container Lifting Using Large-Scale Cranes with Underactuated Tools
- arxiv url: http://arxiv.org/abs/2602.05895v1
- Date: Thu, 05 Feb 2026 17:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.204445
- Title: Residual Reinforcement Learning for Waste-Container Lifting Using Large-Scale Cranes with Underactuated Tools
- Title(参考訳): 不定形工具を用いた大型クレーンを用いた廃棄物容器リフティングの残留補強学習
- Authors: Qi Li, Karsten Berns,
- Abstract要約: 本稿では, 都市環境におけるごみ容器リサイクル作業のコンテナ昇降段階について検討する。
本研究は,名目制御器と学習された残留ポリシーを組み合わせた残留強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 6.868155877660834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper studies the container lifting phase of a waste-container recycling task in urban environments, performed by a hydraulic loader crane equipped with an underactuated discharge unit, and proposes a residual reinforcement learning (RRL) approach that combines a nominal Cartesian controller with a learned residual policy. All experiments are conducted in simulation, where the task is characterized by tight geometric tolerances between the discharge-unit hooks and the container rings relative to the overall crane scale, making precise trajectory tracking and swing suppression essential. The nominal controller uses admittance control for trajectory tracking and pendulum-aware swing damping, followed by damped least-squares inverse kinematics with a nullspace posture term to generate joint velocity commands. A PPO-trained residual policy in Isaac Lab compensates for unmodeled dynamics and parameter variations, improving precision and robustness without requiring end-to-end learning from scratch. We further employ randomized episode initialization and domain randomization over payload properties, actuator gains, and passive joint parameters to enhance generalization. Simulation results demonstrate improved tracking accuracy, reduced oscillations, and higher lifting success rates compared to the nominal controller alone.
- Abstract(参考訳): 本稿では, 未作動排出ユニットを備えた油圧ローダクレーンによる都市環境におけるごみ容器リサイクル作業のコンテナ昇降フェーズについて検討し, 名目上のカルテシアンコントローラと学習された残留ポリシーを組み合わせた残留強化学習(RRL)手法を提案する。
全ての実験はシミュレーションで行われ、そのタスクは放電ユニットフックとクレーンスケール全体の相対的な容器リングとの間の厳密な幾何学的耐性によって特徴づけられ、正確な軌道追跡とスイングの抑制が不可欠である。
名目制御器は、軌道追跡と振り子対応の揺動減衰にアプタンス制御を使用し、次いで、ヌル空間姿勢項を持つ最小二乗逆運動学を減衰させて関節速度コマンドを生成する。
アイザック研究所のPPO訓練された残留ポリシーは、非モデル化された力学とパラメータのバリエーションを補償し、スクラッチからエンドツーエンドの学習を必要とせずに精度と堅牢性を向上させる。
さらに、ペイロード特性、アクチュエータゲイン、受動的関節パラメータよりもランダム化されたエピソード初期化とドメインランダム化を用いて一般化を強化する。
シミュレーション結果から, 追従精度の向上, 振動低減, 昇降成功率の向上が得られた。
関連論文リスト
- Onboard MuJoCo-based Model Predictive Control for Shipboard Crane with Double-Pendulum Sway Suppression [7.645323708488569]
海上での重荷の移動は、危険なペイロードのスウェイによって制限された効率的なクレーンの運用に依存している。
既存の制御方法はそのような設定で苦労し、しばしば単純化された分析モデルに依存している。
MuJoCo MPCフレームワークを中心とした,完全なリアルタイム制御パイプラインを示す。
論文 参考訳(メタデータ) (2026-03-17T11:43:52Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization [56.5199302532159]
本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。
Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。
Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
論文 参考訳(メタデータ) (2026-02-07T15:50:18Z) - Physics-informed Neural-operator Predictive Control for Drag Reduction in Turbulent Flows [109.99020160824553]
乱流のモデリングと制御のための効率的な深部強化学習フレームワークを提案する。
予測制御(PC)のためのモデルベースRLであり、乱流制御のためのポリシとオブザーバモデルの両方を共同で学習する。
その結果, PINO-PCは, バルク速度レイノルズ数15,000で39.0%の抗力低下を達成し, 従来の流体制御法を32%以上上回った。
論文 参考訳(メタデータ) (2025-10-03T00:18:26Z) - RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking [50.200035833530876]
RobotDancingはシンプルでスケーラブルなフレームワークで、残留する関節の目標を予測して、ダイナミックスの不一致を明示的に修正する。
複数分間の高エネルギー動作(ジャンプ、スピン、カートホイール)をトラッキングし、高いモーショントラッキング品質のハードウェアにゼロショットをデプロイする。
論文 参考訳(メタデータ) (2025-09-25T03:30:34Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control [2.325021848829375]
本研究では, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクトリトラッカーを提案する。
提案手法は, 空気力学効果の真値と推定値の不確かさを正確に同定する。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
論文 参考訳(メタデータ) (2023-02-22T23:15:56Z) - Designing a Robust Low-Level Agnostic Controller for a Quadrotor with
Actor-Critic Reinforcement Learning [0.38073142980732994]
ソフトアクター・クリティカルに基づく低レベルウェイポイント誘導制御器の訓練段階におけるドメインランダム化を提案する。
トレーニング中の四元数力学に一定の不確実性を導入することにより、より大規模な四元数パラメータを用いて提案課題を実行することができる制御器が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T14:58:19Z) - Interpretable Stochastic Model Predictive Control using Distributional
Reinforced Estimation for Quadrotor Tracking Systems [0.8411385346896411]
本研究では,動的・複雑環境下での自律的四角形ナビゲーションのためのトラジェクトリトラッカーを提案する。
提案フレームワークは,未知の空力効果に対する分散強化学習推定器をモデル予測制御器に統合する。
我々は,未知かつ多様な空気力を用いて,累積追従誤差を少なくとも66%改善するシステムを実証した。
論文 参考訳(メタデータ) (2022-05-14T23:27:38Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。