論文の概要: Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances
- arxiv url: http://arxiv.org/abs/2603.26612v1
- Date: Fri, 27 Mar 2026 17:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.615579
- Title: Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances
- Title(参考訳): オーバーヘッドマニピュレータ搭載UAVの変圧器による強化学習制御のためのメタ適応ビーム探索計画
- Authors: Hazim Alzorgan, Sayed Pedram Haeri Boroujeni, Abolfazl Razi,
- Abstract要約: オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。
ドローンとそのマニピュレータの動作は強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。
変換器をベースとしたDouble Deep Q Learning (DDQN) を用いた強化学習フレームワークを開発した。
これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測できる。
- 参考スコア(独自算出の注目度): 8.618483849755604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drones equipped with overhead manipulators offer unique capabilities for inspection, maintenance, and contact-based interaction. However, the motion of the drone and its manipulator is tightly linked, and even small attitude changes caused by wind or control imperfections shift the end-effector away from its intended path. This coupling makes reliable tracking difficult and also limits the direct use of learning-based arm controllers that were originally designed for fixed-base robots. These effects appear consistently in our tests whenever the UAV body experiences drift or rapid attitude corrections. To address this behavior, we develop a reinforcement-learning (RL) framework with a transformer-based double deep Q learning (DDQN), with the core idea of using an adaptive beam-search planner that applies a short-horizon beam search over candidate control sequences using the learned critic as the forward estimator. This allows the controller to anticipate the end-effector's motion through simulated rollouts rather than executing those actions directly on the actual model, realizing a software-in-the-loop (SITL) approach. The lookahead relies on value estimates from a Transformer critic that processes short sequences of states, while a DDQN backbone provides the one-step targets needed to keep the learning process stable. Evaluated on a 3-DoF aerial manipulator under identical training conditions, the proposed meta-adaptive planner shows the strongest overall performance with a 10.2% reward increase, a substantial reduction in mean tracking error (from about 6% to 3%), and a 29.6% improvement in the combined reward-error metric relative to the DDQN baseline. Our method exhibits elevated stability in tracking target tip trajectory (by maintaining 5 cm tracking error) when the drone base exhibits drifts due to external disturbances, as opposed to the fixed-beam and Transformer-only variants.
- Abstract(参考訳): オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。
しかし、ドローンとそのマニピュレータの動きは強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。
この結合により、信頼性の高いトラッキングが難しくなり、また、元々固定ベースロボット用に設計された学習ベースのアームコントローラの直接使用が制限される。
これらの効果は、UAVの体がドリフトや急激な姿勢補正を経験するたびに、我々のテストで一貫して現れます。
この振る舞いに対処するため、我々は、学習評論家をフォワード推定器として用い、候補制御列に対して短水平ビーム探索を施した適応ビーム探索プランナーを用いて、トランスフォーマーに基づく二重深度Q学習(DDQN)を用いた強化学習(RL)フレームワークを開発した。
これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測し、ソフトウェア・イン・ザ・ループ(SITL)アプローチを実現する。
ルックアヘッドは、Transformerの批評家が短い状態列を処理するのに対して、DDQNのバックボーンは学習プロセスを安定させるために必要な1ステップの目標を提供する。
同一の訓練条件下での3DoF空中マニピュレータで評価され、提案されたメタ適応プランナーは10.2%の報酬増加、平均追尾誤差の大幅な減少(約6%から3%)、DDQNベースラインと比較して29.6%の報酬-エラー測定値の改善を示す。
固定ビーム・トランスフォーマーのみの変種とは対照的に, ドローン基地が外乱によるドリフトを示す場合, 目標先端軌跡追跡の安定性が向上する(追跡誤差は5cm)。
関連論文リスト
- Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach [2.3646560222366695]
本稿では,Adaptive Extended Kalman Filter (AEKF) を組み込んだ軽量LiDARベースのUAVトラッキングシステムを提案する。
提案手法は,非反復走査型3次元LiDARにより発生するスパース,ノイズ,および不均一点クラウドデータによる課題を効果的に解決する。
論文 参考訳(メタデータ) (2026-03-10T15:19:34Z) - PreGME: Prescribed Performance Control of Aerial Manipulators based on Variable-Gain ESO [12.679195185695164]
可変ゲイン拡張状態オブザーバ(ESOs)に基づく新しい所定のパフォーマンス動作制御フレームワークを提案する。
動的結合のリアルタイム推定のための可変ゲインESOと所定の性能飛行制御とを含む。
実験結果から,ロボットアームの高速動作による動的結合の下でも,高い追従性能が得られた。
論文 参考訳(メタデータ) (2025-12-28T14:54:06Z) - Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文 参考訳(メタデータ) (2025-08-15T01:27:15Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - Why Change Your Controller When You Can Change Your Planner: Drag-Aware
Trajectory Generation for Quadrotor Systems [10.101847906979435]
輸送ペイロードからの非モデル化された空気力学的抵抗力は破滅的な結果をもたらす可能性がある。
制御器の固定を保ちながら軌道生成部品を適応させることで軌道追跡を改善できると主張している。
シミュレーションとハードウェアプラットフォームCrzyflieで行った実験では、プランナーの変更によってトラッキングエラーが最大83%削減された。
論文 参考訳(メタデータ) (2024-01-10T07:00:07Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Actuator Trajectory Planning for UAVs with Overhead Manipulator using
Reinforcement Learning [0.3222802562733786]
制御可能なアームを備えたUAVを2自由度で開発し、飛行中に作動作業を行う。
我々のソリューションは、腕の先端の軌跡を制御するためのQ-learning法(End-effector)を用いています。
提案手法は,15,000エピソードのQ-ラーニングを用いて,平均変位誤差の92%の精度を実現する。
論文 参考訳(メタデータ) (2023-08-24T15:06:23Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。