論文の概要: MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers
- arxiv url: http://arxiv.org/abs/2603.10714v1
- Date: Wed, 11 Mar 2026 12:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.684295
- Title: MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers
- Title(参考訳): MAVEN:アジャイルクアドロターマニアにおけるヴァリング・ダイナミクスのエキスパートのためのメタ強化学習フレームワーク
- Authors: Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li,
- Abstract要約: MAVENはメタRLフレームワークであり、単一のポリシーで幅広い四角形力学をまたいだ堅牢なエンドツーエンドナビゲーションを実現することができる。
我々はGPUベクタライズドシミュレータを利用して何千もの並列環境にタスクを分散し、メタRLの長いトレーニング時間を1時間以内で収束させています。
- 参考スコア(独自算出の注目度): 9.464856441150717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful paradigm for achieving online agile navigation with quadrotors. Despite this success, policies trained via standard RL typically fail to generalize across significant dynamic variations, exhibiting a critical lack of adaptability. This work introduces MAVEN, a meta-RL framework that enables a single policy to achieve robust end-to-end navigation across a wide range of quadrotor dynamics. Our approach features a novel predictive context encoder, which learns to infer a latent representation of the system dynamics from interaction history. We demonstrate our method in agile waypoint traversal tasks under two challenging scenarios: large variations in quadrotor mass and severe single-rotor thrust loss. We leverage a GPU-vectorized simulator to distribute tasks across thousands of parallel environments, overcoming the long training times of meta-RL to converge in less than an hour. Through extensive experiments in both simulation and the real world, we validate that MAVEN achieves superior adaptation and agility. The policy successfully executes zero-shot sim-to-real transfer, demonstrating robust online adaptation by performing high-speed maneuvers despite mass variations of up to 66.7% and single-rotor thrust losses as severe as 70%.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、四角形を使ったオンラインアジャイルナビゲーションを実現するための強力なパラダイムとして登場した。
この成功にもかかわらず、標準RLによって訓練されたポリシーは、典型的には、大きな動的変動をまたいだ一般化に失敗し、適応性の重大な欠如を示す。
この研究は、メタRLフレームワークであるMAVENを導入し、単一のポリシーにより、幅広い四辺形力学をまたいだ堅牢なエンドツーエンドナビゲーションを実現することができる。
本手法は,インタラクション履歴からシステムダイナミクスの潜在表現を推論する新しい予測コンテキストエンコーダを特徴とする。
提案手法は,2つの難解なシナリオ,すなわち4回転子質量の大きな変動と1回転子推力の深刻な損失の下で,アジャイル・ウェイポイント・トラバース・タスクで実証する。
我々はGPUベクタライズドシミュレータを利用して何千もの並列環境にタスクを分散し、メタRLの長いトレーニング時間を1時間以内で収束させています。
シミュレーションと実世界の両方での広範な実験を通して、MAVENが優れた適応と俊敏性を達成することを検証した。
この方針はゼロショット・シム・トゥ・リアル・トランスファーを成功させ、最大66.7%の質量変化とシングルローターの推力損失が70%まで厳しいにもかかわらず、高速な操作を行うことによって、堅牢なオンライン適応を実証した。
関連論文リスト
- From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation [0.13499500088995461]
マルチローターは様々な分野のロボティクス応用において重要な役割を果たしている。
従来のアプローチでは、マルチロータモデルの事前知識や、新しい構成への適応に苦労する必要がある。
我々はトランスフォーマーベースのオンライン適応モジュールと統合された新しいハイブリッドRLベースのFTCフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T04:50:29Z) - Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles [1.7923169244369488]
マルチエージェント強化学習は、サンプル非効率で悪名高い。
GazeboのLRAUVのような高忠実度シミュレータは、リアルタイムのシングルロボットシミュレーションを100倍高速にする。
本稿では,高忠実度シミュレーションをGPU加速環境へ伝達する反復蒸留法を提案する。
論文 参考訳(メタデータ) (2025-05-13T04:42:30Z) - A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning [5.760394464143113]
本稿では,障害物を敵エージェントとしてモデル化するトレーニングプロセスにより,ロバスト性のあるナビゲーションポリシーを実現する新しい手法を提案する。
我々はこの手法を、量子応答適応強化学習(Hi-QARL)による多元的ポリシーと呼ぶ。
論文 参考訳(メタデータ) (2025-03-14T14:54:02Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Watch and Match: Supercharging Imitation with Regularized Optimal
Transport [28.3572924961148]
正規化された最適輸送(ROT)は、最適輸送に基づく軌道マッチングの最近の進歩に基づく新しい模倣学習アルゴリズムである。
DeepMind Control Suite、OpenAI Robotics Suite、Meta-World Benchmarkにまたがる20の視覚的制御タスクの実験では、専門家のパフォーマンスの90%に達するために平均7.8倍の高速な模倣が実証された。
論文 参考訳(メタデータ) (2022-06-30T17:58:18Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。