論文の概要: Bi-Level Reinforcement Learning Control for an Underactuated Blimp via Center-of-Mass Reconfiguration
- arxiv url: http://arxiv.org/abs/2605.01289v1
- Date: Sat, 02 May 2026 06:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.685802
- Title: Bi-Level Reinforcement Learning Control for an Underactuated Blimp via Center-of-Mass Reconfiguration
- Title(参考訳): センター・オブ・マス・リコンフィグレーションによる不活性化ブラムの両レベル強化学習制御
- Authors: Xiaorui Wang, Hongwu Wang, Yue Fan, Hao Cheng, Feitian Zhang,
- Abstract要約: 本稿では,2つのスラスタと可動内装スライダからなるコンパクトアーキテクチャについて述べる。
提案手法は固定CoMベースラインとPIDベースコントローラを一貫して上回る。
- 参考スコア(独自算出の注目度): 22.07080402182441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates goal-directed tracking control of underactuated blimps with center-of-mass (CoM) reconfiguration. Unlike conventional overactuated blimp designs that rely on redundant actuation for simplified control, this paper focuses on a compact architecture consisting of two thrusters and a movable internal slider, aiming to improve energy efficiency and payload capacity. This hardware-efficient configuration introduces significant underactuation and strong nonlinear coupling between CoM dynamics and vehicle motion. To address these challenges, this paper proposes a bi-level reinforcement learning framework that explicitly decouples task-level CoM planning from continuous thrust control. The outer policy determines a target-dependent CoM configuration prior to flight, while the inner policy generates thrust commands to track straight-line references. To ensure stable learning, this paper introduces a two-stage learning strategy, supported by a convergence analysis of the resulting bi-level process. Extensive simulations and real-world experiments on a 27-goal evaluation set demonstrate that the proposed method consistently outperforms fixed-CoM baselines and PID-based controllers, achieving higher tracking accuracy, enhanced robustness, and reliable sim-to-real transfer.
- Abstract(参考訳): 本稿では,Central-of-mass (CoM) 再構成による不動翼の目標方向追跡制御について検討する。
本報告では, 簡易制御のための冗長な動作に依存する従来の過動翼設計とは異なり, エネルギー効率とペイロード容量の向上を目的とした2つのスラスタと可動内装スライダからなる小型アーキテクチャに焦点を当てる。
このハードウェア効率のよい構成は、CoM力学と車両の運動の間に大きな不安定性と強い非線形結合をもたらす。
これらの課題に対処するために,タスクレベルのCoM計画を連続的な推力制御から明確に分離する二段階強化学習フレームワークを提案する。
外部ポリシーは飛行前に目標依存のCoM構成を決定し、内部ポリシーは直線参照を追跡するスラストコマンドを生成する。
安定した学習を実現するため,本研究では,2段階のプロセスの収束解析によって支援された2段階の学習戦略を提案する。
27ゴール評価セットの大規模シミュレーションと実世界の実験により,提案手法は固定CoMベースラインとPIDベースコントローラを一貫して上回り,より高いトラッキング精度,堅牢性,信頼性の高いsim-to-real転送を実現している。
関連論文リスト
- AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - Dynamic Control Allocation for Dual-Tilt UAV Platforms [0.6999740786886536]
本稿では,ヘキサロタUAVプラットフォームにおける動的制御アロケーションに着目した。
プラットフォームは二重タイルであり、飛行中に2軸に沿って各プロペラを独立に傾けることができる。
本稿では、トラッキングタスクに必要なレンチを生成する高レベルコントローラと、アクチュエータがそのようなレンチを生成することを保証する制御割り当て法とからなる階層型制御構造を提案する。
論文 参考訳(メタデータ) (2026-04-07T10:27:47Z) - Koopman-Based Nonlinear Identification and Adaptive Control of a Turbofan Engine [0.0]
本論文では,2輪ターボファンエンジンの多変量制御に対するクープマン演算子に基づくアプローチについて検討する。
物理に基づくコンポーネントレベルモデルを開発し、トレーニングデータを生成し、コントローラを検証する。
スプール速度とEPRの2つの制御戦略について,海面および様々な飛行条件下で評価した。
論文 参考訳(メタデータ) (2026-04-02T07:51:59Z) - Lightweight Model Predictive Control for Spacecraft Rendezvous Attitude Synchronization [39.146761527401424]
本研究は、2つの軽量モデル予測制御(MPC)アプローチを導入し、宇宙船のランデブー同期時の反応輪を用いた姿勢追跡を行う。
我々は単一ループとデュアルループMPCを開発し、後者は内部ループ内に安定化フィードバックコントローラを組み込み、線形時間不変システムを生成する。
論文 参考訳(メタデータ) (2026-03-19T13:58:55Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning [5.309590159815129]
我々は、新しいエンドツーエンド有限ホライズン・ワッサーシュタイン DRC フレームワークを提案する。
これは、異方性ワッサースタインメトリクスの学習と下流制御タスクを閉ループ方式で統合する。
提案手法は,最先端手法と比較して,クローズドループ性能とロバスト性に優れることを示す。
論文 参考訳(メタデータ) (2025-10-11T13:40:49Z) - DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks [47.58150560549918]
重み分解低ランク適応(DoRA)は,バニラ低ランク適応(LoRA)法の学習能力と訓練安定性の両方を改善することが示されている。
そこで本研究では,DoRAのトレーニングを安定化し,サンプル効率を向上させるため,新しいDoRAの派生型であるDoRANを提案する。
論文 参考訳(メタデータ) (2025-10-05T19:27:48Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。