論文の概要: Learning Robust Control Policies for Inverted Pose on Miniature Blimp Robots
- arxiv url: http://arxiv.org/abs/2602.23972v2
- Date: Fri, 06 Mar 2026 03:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.765145
- Title: Learning Robust Control Policies for Inverted Pose on Miniature Blimp Robots
- Title(参考訳): 小型リムプロボットにおける倒立姿勢に対するロバスト制御の学習
- Authors: Yuanlin Yang, Lin Hong, Fumin Zhang,
- Abstract要約: 小型飛行ロボット(MBR)の逆ポーズに対する頑健な制御ポリシー学習を可能にする新しいフレームワークを提案する。
まず,実世界の動きデータを用いて高忠実度3Dシミュレーション環境を構築し,校正する。
第二に、頑健な逆制御ポリシは、修正された双遅延Deep Deterministic Policy Gradient (TD3)アルゴリズムとドメインランダム化戦略を組み合わせたシミュレーションで訓練される。
第三に、マッピングレイヤは、sim-to-realギャップをブリッジし、学習したポリシの現実的なデプロイを容易にするように設計されています。
- 参考スコア(独自算出の注目度): 2.66870316915168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to achieve and maintain inverted poses is essential for unlocking the full agility of miniature blimp robots (MBRs). However, developing reliable inverted control strategies for MBRs remains challenging due to their complex and underactuated dynamics. To address this challenge, we propose a novel framework that enables robust control policy learning for inverted pose on MBRs. The proposed framework consists of three core stages. First, a high-fidelity three-dimensional (3D) simulation environment is constructed and calibrated using real-world MBR motion data. Second, a robust inverted control policy is trained in simulation using a modified Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm combined with a domain randomization strategy. Third, a mapping layer is designed to bridge the sim-to-real gap and facilitate real-world deployment of the learned policy. Comprehensive evaluations in the simulation environment demonstrate that the learned policy achieves a higher success rate compared to the energy-shaping controller. Furthermore, experimental results confirm that the learned policy with a mapping layer enables an MBR to achieve and maintain a fully inverted pose in real-world settings.
- Abstract(参考訳): 逆ポーズを達成し維持する能力は、小型飛行ロボット(MBR)の完全な俊敏性を解き放つ上で不可欠である。
しかし、MBRの信頼性の高い逆制御戦略の開発は、複雑で不安定な力学のため、依然として困難である。
この課題に対処するために,MBR上の逆ポーズに対するロバストな制御ポリシー学習を可能にする新しいフレームワークを提案する。
提案するフレームワークは,3つのコアステージで構成されている。
まず、実世界のMBRモーションデータを用いて高忠実度3次元3次元シミュレーション環境を構築し、校正する。
第二に、頑健な逆制御ポリシは、修正された双遅延Deep Deterministic Policy Gradient (TD3)アルゴリズムとドメインランダム化戦略を組み合わせたシミュレーションで訓練される。
第三に、マッピングレイヤは、sim-to-realギャップをブリッジし、学習したポリシの現実的なデプロイを容易にするように設計されています。
シミュレーション環境における総合的な評価は、学習方針がエネルギー生成制御器よりも高い成功率を達成することを示す。
さらに, 実環境において, MBRが完全に反転したポーズを達成し, 維持することができることを示す実験結果を得た。
関連論文リスト
- Data-Driven Control of a Magnetically Actuated Fish-Like Robot [2.5782420501870296]
磁力で動く魚のようなロボットは、小型化と機敏さのために水中探査に有望なソリューションを提供する。
本稿では、解析モデルに頼ることなく、これらの複雑さに対処するデータ駆動制御フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-05T04:08:08Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Hybrid DQN-TD3 Reinforcement Learning for Autonomous Navigation in Dynamic Environments [1.241204035960416]
本稿では、離散的なサブゴール選択のための高レベルなディープQネットワーク(DQN)と、連続的な動作のための低レベルなツイン遅延Deep Deterministic Policy Gradient(TD3)コントローラを組み合わせた階層的パス計画制御フレームワークを提案する。
我々は、安全でない動きを防止できるLiDARベースの安全ゲートとともに、実用的な報酬形成スキーム(方向、距離、障害物回避、動作の平滑性、衝突罰、時間罰、進行)を設計する。
論文 参考訳(メタデータ) (2025-10-30T16:12:01Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Using Simulation Optimization to Improve Zero-shot Policy Transfer of
Quadrotors [0.14999444543328289]
実世界データを用いて微調整を行うことなく,シミュレーションで完全に強化学習を施した低レベルの制御ポリシを訓練し,四足歩行ロボットに展開することが可能であることを示す。
私たちのニューラルネットワークベースのポリシーは、オンボードセンサーデータのみを使用し、組み込みドローンハードウェアで完全に動作します。
論文 参考訳(メタデータ) (2022-01-04T22:32:05Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。