論文の概要: MetaTune: Adjoint-based Meta-tuning via Robotic Differentiable Dynamics
- arxiv url: http://arxiv.org/abs/2603.27313v1
- Date: Sat, 28 Mar 2026 15:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.897609
- Title: MetaTune: Adjoint-based Meta-tuning via Robotic Differentiable Dynamics
- Title(参考訳): MetaTune: ロボット微分ダイナミクスによる随伴型メタチューニング
- Authors: Xiexin Peng, Bingheng Wang, Tao Zhang, Ying Zheng,
- Abstract要約: 外乱オブザーバーに基づく制御は、不確実性に対するロボットシステムの堅牢化を約束している。
フィードバックコントローラと外乱オブザーバの協調的自動チューニングのための統合フレームワークであるMetaTuneを提案する。
本稿では,MetaTuneが最先端の微分可能なチューニング手法よりも一貫した改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 7.048473553381187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disturbance observer-based control has shown promise in robustifying robotic systems against uncertainties. However, tuning such systems remains challenging due to the strong coupling between controller gains and observer parameters. In this work, we propose MetaTune, a unified framework for joint auto-tuning of feedback controllers and disturbance observers through differentiable closed-loop meta-learning. MetaTune integrates a portable neural policy with physics-informed gradients derived from differentiable system dynamics, enabling adaptive gain across tasks and operating conditions. We develop an adjoint method that efficiently computes the meta-gradients with respect to adaptive gains backward in time to directly minimize the cost-to-go. Compared to existing forward methods, our approach reduces the computational complexity to be linear in the data horizon. Experimental results on quadrotor control show that MetaTune achieves consistent improvements over state-of-the-art differentiable tuning methods while reducing gradient computation time by more than 50 percent. In high-fidelity PX4-Gazebo hardware-in-the-loop simulation, the learned adaptive policy yields 15-20 percent average tracking error reduction at aggressive flight speeds and up to 40 percent improvement under strong disturbances, while demonstrating zero-shot sim-to-sim transfer without fine-tuning.
- Abstract(参考訳): 外乱オブザーバーに基づく制御は、不確実性に対するロボットシステムの堅牢化を約束している。
しかし、コントローラゲインとオブザーバパラメータの強い結合のため、そのようなシステムのチューニングは依然として困難である。
本研究では,フィードバックコントローラと外乱オブザーバの協調的自動チューニングのための統合フレームワークであるMetaTuneを提案する。
MetaTuneは、ポータブルなニューラルポリシーと、微分可能なシステムダイナミクスから派生した物理インフォームド勾配を統合し、タスクや運用条件を越えた適応的なゲインを可能にする。
本稿では,適応的なゲインに対して,メタグラディエントを効率よく計算し,直接的にコスト・ツー・ゴーを最小化するアジョイント法を開発した。
既存のフォワード法と比較して,本手法はデータ水平線において線形となる計算複雑性を低減させる。
四元数制御の実験結果から,MetaTuneは最先端の微分可能なチューニング手法よりも一貫した改善を実現し,勾配計算時間を50%以上削減できることがわかった。
高忠実度PX4-Gazeboハードウェア・イン・ザ・ループシミュレーションでは、学習された適応ポリシーは、攻撃的な飛行速度で平均トラッキングエラーを15~20%削減し、強い障害下で最大40%改善する一方で、微調整なしでゼロショットsim-to-sim転送を実証する。
関連論文リスト
- Beyond Imitation: Reinforcement Learning Fine-Tuning for Adaptive Diffusion Navigation Policies [31.52910494173408]
拡散に基づくロボットナビゲーションポリシーは、ロボットの視覚的観察から直接マルチモーダルな軌道を生成することができる。
拡散型ナビゲーションに適した強化学習フレームワークを提案する。
提案手法は, 衝突頻度を低減しつつ, 52.0%から58.7%, SPLを0.49から0.54に改善する。
論文 参考訳(メタデータ) (2026-03-13T10:14:32Z) - Iterative Tuning of Nonlinear Model Predictive Control for Robotic Manufacturing Tasks [0.44040106718326594]
本稿では,モデル予測制御(NMPC)重み付け行列の自動チューニングのための反復学習フレームワークを提案する。
ノルム最適反復学習制御(ILC)にインスパイアされた提案手法は,タスクを繰り返してNMPC QとRを適応的に調整する。
その結果,提案手法は準最適追従性能に収束することが示された。
論文 参考訳(メタデータ) (2025-12-15T10:30:40Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。
モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文 参考訳(メタデータ) (2023-06-12T13:10:14Z) - Neural Moving Horizon Estimation for Robust Flight Control [6.023276947115864]
外乱の予測と反応は、四角形機の堅牢な飛行制御に不可欠である。
ニューラルネットワークによってモデル化されたMHEパラメータを自動的に調整できるニューロ移動地平線推定器(NeuroMHE)を提案する。
NeuroMHEは出力推定誤差を最大49.4%削減した最先端の推定器より優れている。
論文 参考訳(メタデータ) (2022-06-21T13:43:24Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。