論文の概要: Comparing Behavioural Cloning and Reinforcement Learning for Spacecraft Guidance and Control Networks
- arxiv url: http://arxiv.org/abs/2507.19535v1
- Date: Tue, 22 Jul 2025 07:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.561458
- Title: Comparing Behavioural Cloning and Reinforcement Learning for Spacecraft Guidance and Control Networks
- Title(参考訳): 宇宙船誘導制御ネットワークにおける行動クローンと強化学習の比較
- Authors: Harry Holt, Sebastien Origer, Dario Izzo,
- Abstract要約: 誘導制御ネットワーク(G&CNET)は、宇宙船の誘導制御(G&C)アーキテクチャに代わる有望な代替手段を提供する。
G&CNETのトレーニングでは、最適な軌道を模倣する行動クローニング(BC)と、試行錯誤を通じて最適な行動を学ぶ強化学習(RL)の2つの主要なパラダイムが出現する。
我々は、連続スラスト宇宙船軌道最適化タスクにおいて、特にG&CNETを訓練するために、BCとRLを体系的に評価する。
我々は、G&CNETに適した新しいRLトレーニングフレームワークを導入し、報酬とともに分離されたアクションと制御周波数を取り入れた。
- 参考スコア(独自算出の注目度): 4.868863044142366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guidance & control networks (G&CNETs) provide a promising alternative to on-board guidance and control (G&C) architectures for spacecraft, offering a differentiable, end-to-end representation of the guidance and control architecture. When training G&CNETs, two predominant paradigms emerge: behavioural cloning (BC), which mimics optimal trajectories, and reinforcement learning (RL), which learns optimal behaviour through trials and errors. Although both approaches have been adopted in G&CNET related literature, direct comparisons are notably absent. To address this, we conduct a systematic evaluation of BC and RL specifically for training G&CNETs on continuous-thrust spacecraft trajectory optimisation tasks. We introduce a novel RL training framework tailored to G&CNETs, incorporating decoupled action and control frequencies alongside reward redistribution strategies to stabilise training and to provide a fair comparison. Our results show that BC-trained G&CNETs excel at closely replicating expert policy behaviour, and thus the optimal control structure of a deterministic environment, but can be negatively constrained by the quality and coverage of the training dataset. In contrast RL-trained G&CNETs, beyond demonstrating a superior adaptability to stochastic conditions, can also discover solutions that improve upon suboptimal expert demonstrations, sometimes revealing globally optimal strategies that eluded the generation of training samples.
- Abstract(参考訳): 誘導制御ネットワーク(G&CNET)は、宇宙船の誘導制御(G&C)アーキテクチャに代わる有望な代替手段であり、誘導制御アーキテクチャの差別化可能なエンドツーエンド表現を提供する。
G&CNETのトレーニングでは、最適な軌道を模倣する行動クローニング(BC)と、試行錯誤を通じて最適な行動を学ぶ強化学習(RL)の2つの主要なパラダイムが出現する。
どちらの手法もG&CNET関連の文献で採用されているが、直接比較は特に欠落している。
そこで本研究では,連続スラスト宇宙船軌道最適化タスクにおけるG&CNETの訓練に特化して,BCとRLを体系的に評価する。
我々は,G&CNETに適した新しいRLトレーニングフレームワークを導入し,トレーニングの安定化と公正な比較のために,報酬再分配戦略とともに分離されたアクションと制御周波数を取り入れた。
以上の結果から,BCの学習したG&CNETは,専門家の政策行動の厳密な複製に優れ,決定論的環境の最適制御構造は優れているが,トレーニングデータセットの品質やカバレッジには負の制約が生じる可能性が示唆された。
対照的に、RLで訓練されたG&CNETは、確率的条件への優れた適応性を示すだけでなく、最適でない専門家のデモンストレーションを改善するソリューションも発見できる。
関連論文リスト
- Group Sequence Policy Optimization [55.40088895148603]
Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。
GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
論文 参考訳(メタデータ) (2025-07-24T03:50:32Z) - Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。
実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文 参考訳(メタデータ) (2025-06-26T17:25:49Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Neural-based Control for CubeSat Docking Maneuvers [0.0]
本稿では、強化学習(RL)によって訓練されたニューラルネットワーク(ANN)を用いた革新的なアプローチを提案する。
提案した戦略は実装が容易であり、経験から制御ポリシーを学習することで、高速な適応性と障害に対する堅牢性を提供する。
本研究は、宇宙機RVDの適応性と効率の確保におけるRLの有効性を強調し、今後のミッションへの期待について考察した。
論文 参考訳(メタデータ) (2024-10-16T16:05:46Z) - Gradient Boosting Reinforcement Learning [9.66275447955737]
Gradient Boosting Reinforcement Learning (GBRL) は、勾配強化木(GBT)の強みを強化学習(RL)タスクに適応させるフレームワークである。
GBRLは、構造化された観察と分類的特徴を持つ領域において、ニューラルネットワーク(NN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-11T07:52:33Z) - C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory [20.38647732528661]
GAIL(Generative Adversarial Learning)は、デモンストレーターを模倣する生成ポリシーを訓練する。
オンラインImitation Reinforcement Learning (RL) を用いて、GANライクな識別器から得られる報酬信号を最適化する。
近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。
論文 参考訳(メタデータ) (2024-02-26T07:07:00Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Controlled Descent Training [0.0]
最適制御理論により,新しいモデルベースニューラルネットワーク(ANN)トレーニング手法を開発した。
この方法は、トレーニング損失収束を確実に保証し、トレーニング収束率を向上させるために、トレーニングラベルを増強する。
本手法の適用性は, 標準回帰問題と分類問題において実証される。
論文 参考訳(メタデータ) (2023-03-16T10:45:24Z) - Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control [7.242569453287703]
まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの一般的なアプローチの比較研究を行う。
本結果は,最適性と学習時間の両方の観点から,オフライン教師あり学習の優位性を裏付けるものである。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
論文 参考訳(メタデータ) (2022-11-29T05:07:13Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。