論文の概要: Efficient Knowledge Transfer for Jump-Starting Control Policy Learning of Multirotors through Physics-Aware Neural Architectures
- arxiv url: http://arxiv.org/abs/2602.15533v1
- Date: Tue, 17 Feb 2026 12:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.509717
- Title: Efficient Knowledge Transfer for Jump-Starting Control Policy Learning of Multirotors through Physics-Aware Neural Architectures
- Title(参考訳): 物理認識型ニューラルネットワークによるマルチロータの跳躍制御ポリシ学習のための効率的な知識伝達
- Authors: Welf Rehberg, Mihir Kulkarni, Philipp Weiss, Kostas Alexis,
- Abstract要約: 我々は,マルチロータ構成間の効果的な知識伝達を実現するためのライブラリベースのスキームを開発した。
提案手法は, 様々な四面体および六面体の設計において, 環境相互作用の最大7.3.5%(スクラッチから政策を訓練する)を平均的に削減することを示した。
- 参考スコア(独自算出の注目度): 11.449763494464053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently training control policies for robots is a major challenge that can greatly benefit from utilizing knowledge gained from training similar systems through cross-embodiment knowledge transfer. In this work, we focus on accelerating policy training using a library-based initialization scheme that enables effective knowledge transfer across multirotor configurations. By leveraging a physics-aware neural control architecture that combines a reinforcement learning-based controller and a supervised control allocation network, we enable the reuse of previously trained policies. To this end, we utilize a policy evaluation-based similarity measure that identifies suitable policies for initialization from a library. We demonstrate that this measure correlates with the reduction in environment interactions needed to reach target performance and is therefore suited for initialization. Extensive simulation and real-world experiments confirm that our control architecture achieves state-of-the-art control performance, and that our initialization scheme saves on average up to $73.5\%$ of environment interactions (compared to training a policy from scratch) across diverse quadrotor and hexarotor designs, paving the way for efficient cross-embodiment transfer in reinforcement learning.
- Abstract(参考訳): ロボットの制御ポリシーを効果的に訓練することは、クロス・エボディメント・ナレッジ・トランスファーを通じて、類似システムのトレーニングから得られる知識を活用することで大きな恩恵を受けることができる大きな課題である。
本研究では,マルチロータ構成間の効果的な知識伝達を可能にするライブラリベースの初期化手法を用いて,ポリシートレーニングの高速化に重点を置いている。
強化学習ベースコントローラと教師付き制御アロケーションネットワークを組み合わせた物理認識型ニューラルコントロールアーキテクチャを利用することで、以前に訓練されたポリシーの再利用を可能にする。
この目的のために,図書館の初期化に適したポリシーを識別するポリシ評価に基づく類似度尺度を利用する。
本手法は,目標性能に到達するために必要な環境相互作用の低減と相関し,初期化に適していることを示す。
大規模シミュレーションと実世界の実験により、我々の制御アーキテクチャは最先端の制御性能を達成し、我々の初期化スキームは、様々な四元数と六元数の設計をまたいだ環境相互作用(スクラッチからポリシーを訓練する)の最大73.5\%のコストを節約し、強化学習における効率的なクロス・エボディメント・トランスファーの道を開いたことが確認された。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Transfer learning strategies for accelerating reinforcement-learning-based flow control [0.0]
本研究では,カオス流体の多相性制御のための深部強化学習(DRL)を高速化するための伝達学習戦略について検討する。
DRLベースのフロー制御の文脈で、プログレッシブニューラルネットワーク(PNN)が初めて使用される。
PNNは、事前の知識を保存し、一貫した性能向上を提供することにより、安定かつ効率的な転送を可能にする。
論文 参考訳(メタデータ) (2025-10-15T09:52:06Z) - Pretraining in Actor-Critic Reinforcement Learning for Robot Motion Control [6.288719574558261]
この研究は、ニューラルネットワークモデルを事前学習するためのパラダイムを定義することを目的としている。
タスクに依存しない探索に基づくデータ収集アルゴリズムを用いて、多様な動的遷移データを収集する。
事前訓練された重みはアクターネットワークと批評家ネットワークの両方にロードされ、実際のタスクのポリシー最適化をウォームスタートさせる。
論文 参考訳(メタデータ) (2025-10-14T10:25:40Z) - A Fast Initialization Method for Neural Network Controllers: A Case Study of Image-based Visual Servoing Control for the multicopter Interception [5.006133776992552]
強化学習に基づくコントローラ設計法は、初期訓練段階でかなりのデータを必要とすることが多い。
安定なニューラルネットワークコントローラは、強化学習の初期ポリシーとして機能するだけでなく、学習ベースのリアプノフ制御方法の初期状態としても機能する。
論文 参考訳(メタデータ) (2025-09-23T14:56:59Z) - In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。
ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。
本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文 参考訳(メタデータ) (2025-06-18T06:43:55Z) - ControlVAE: Model-Based Learning of Generative Controllers for
Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。
我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-12T10:11:36Z) - Towards Task-Prioritized Policy Composition [10.477909792349823]
強化学習のためのタスク優先型合成フレームワークを提案する。
我々のフレームワークは、知識伝達とモジュラー設計を促進すると同時に、強化学習エージェントのデータ効率とデータ再利用を大幅に向上させる可能性がある。
ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。
論文 参考訳(メタデータ) (2022-09-20T08:08:04Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。