論文の概要: Prior Policy Guided Dual-Agent Coordinated Manipulation Planning of Spacecraft-Manipulator System
- arxiv url: http://arxiv.org/abs/2605.25362v1
- Date: Mon, 25 May 2026 02:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.255474
- Title: Prior Policy Guided Dual-Agent Coordinated Manipulation Planning of Spacecraft-Manipulator System
- Title(参考訳): 宇宙機マニピュレータシステムのデュアルエージェント協調マニピュレータ計画の事前指針
- Authors: Yuhui Hu, Dong Zhou, Kaihong Ouyang, Zhongliang Yu, Jianfeng Lv, Xiangyu Shao,
- Abstract要約: 本稿では,デュアルエージェント協調型マニピュレーション計画フレームワークを提案する。
同時に6-DoFの宇宙マニピュレータに届く高精度のエンドエフェクターポーズと、ベース宇宙船の姿勢安定化を実現している。
- 参考スコア(独自算出の注目度): 5.3085579284738085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The strong dynamic coupling between the manipulator and the base poses a significant challenge to maintaining spacecraft attitude stability, potentially compromising mission safety. In this paper, we propose a Dual-Agent Coordinated Manipulation Planning (DACMP) framework that simultaneously achieves high-precision end-effector pose reaching for a 6-DoF space manipulator and attitude stabilization of the base spacecraft. To enhance learning efficiency, we present a prior policy-guided Deep Reinforcement Learning algorithm incorporating the Timestep-level Expert Switching Guidance (TESG) mechanism, thereby promoting global convergence and improving task success rates. Extensive experiments demonstrate that DACMP significantly outperforms baseline DRL algorithms in terms of task success rate and control precision. Furthermore, the robustness of DACMP is validated under various challenging scenarios, including system constraints, environmental disturbances, and perception uncertainties. The code and simulation configurations are available on GitHub: https://github.com/HIT-YuhuiHu/DACMP.
- Abstract(参考訳): マニピュレータと基地の間の強い動的結合は、宇宙船の姿勢安定性を維持する上で大きな課題となり、ミッションの安全性を損なう可能性がある。
本稿では,Dual-Agent Coordinated Manipulation Planning (DACMP)フレームワークを提案する。
学習効率を向上させるために,TESG(Timestep-level Expert Switching Guidance)機構を取り入れた事前ポリシー誘導型深層強化学習アルゴリズムを提案する。
DACMPはタスク成功率と制御精度でベースラインDRLアルゴリズムを著しく上回っている。
さらに、DACMPの堅牢性は、システムの制約、環境障害、認識の不確実性など、様々な困難なシナリオで検証されている。
コードとシミュレーション設定はGitHubで入手できる。
関連論文リスト
- Neural Backward Reach-Avoid Tubes with MPC Supervision for High-Dimensional Systems: An Application to Safe Spacecraft Docking [6.387263468033964]
ハミルトン・ヤコビ(HJ)の到達性は形式的なリーチ・アビド保証を提供するが、古典的解法は低次元システムに限られる。
本稿では,HJ構造とMPCに基づく監視を緊密に統合した学習型バックワードリーチ回避管(BRAT)フレームワークを提案する。
提案手法は,格子状地中真実に対する6次元平面ドッキング問題に対して評価し,完全な13Dシステムに拡張する。
論文 参考訳(メタデータ) (2026-05-03T19:00:06Z) - Bi-Level Reinforcement Learning Control for an Underactuated Blimp via Center-of-Mass Reconfiguration [22.07080402182441]
本稿では,2つのスラスタと可動内装スライダからなるコンパクトアーキテクチャについて述べる。
提案手法は固定CoMベースラインとPIDベースコントローラを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-02T06:55:26Z) - CMP: Robust Whole-Body Tracking for Loco-Manipulation via Competence Manifold Projection [64.65196237023754]
Manifold Competence Projectionは、アウト・オブ・ディストリビューションの摂動に対する堅牢性を改善する。
我々は、無限水平安全制約を計算効率の良い単段多様体包含に変換するフレーム-ワイズ安全スキームを用いる。
実験により、CMPは典型的なOODシナリオで最大10倍の生存率向上を達成することが示された。
論文 参考訳(メタデータ) (2026-04-08T18:00:39Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation [2.2423135771458194]
本稿では、部分的に充填された燃料タンクを用いた自律衛星ドッキングのための強化学習(RL)とモデル予測制御(MPC)フレームワークを提案する。
そこで我々は,PPOアルゴリズムとSACアルゴリズムをMPCと統合し,MPCの予測能力を活用してRLトレーニングを加速し,制御の堅牢性を向上させる。
本研究は, 燃料効率と耐障害性のある衛星ドッキングを推し進め, 軌道上再給油・給油ミッションの実現可能性を高めた。
論文 参考訳(メタデータ) (2025-09-25T11:51:07Z) - Joint Channel Estimation and Computation Offloading in Fluid Antenna-assisted MEC Networks [81.36647816787713]
チャネル推定の遅延を最小限に抑えるためのFA支援オフロードフレームワークを提案する。
提案方式は,効率的な通信を行う場合の精度を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-09-16T08:48:44Z) - Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。
本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文 参考訳(メタデータ) (2025-07-12T17:11:06Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning
Approach [66.53364438507208]
アクティブな再構成可能なインテリジェントサーフェス(RIS)支援マルチユーザダウンリンク通信システムについて検討した。
非直交多重アクセス(NOMA)はスペクトル効率を向上させるために使用され、活性RISはエネルギー回収(EH)によって駆動される。
ユーザの動的通信状態を予測するために,高度なLSTMベースのアルゴリズムを開発した。
増幅行列と位相シフト行列RISを結合制御するためにDDPGに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:16:28Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Reinforcement Learning from Demonstrations by Novel Interactive Expert
and Application to Automatic Berthing Control Systems for Unmanned Surface
Vessel [12.453219390225428]
RLfD(Reinforcement Learning from Demonstration)の2つの新しい実践的手法を開発し,無人表面容器の自動バーシング制御システムに適用した。
The new expert data generation method, called Model Predictive Based Expert (MPBE) was developed to provide high quality supervision data for RLfD algorithm。
また,MP-DDPGに基づく新たなRLfDアルゴリズムであるSelf-Guided Actor-Critic (SGAC)が存在する。
論文 参考訳(メタデータ) (2022-02-23T06:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。