論文の概要: Autonomous Reasoning for Spacecraft Control: A Large Language Model Framework with Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.04334v1
- Date: Wed, 07 Jan 2026 19:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.688457
- Title: Autonomous Reasoning for Spacecraft Control: A Large Language Model Framework with Group Relative Policy Optimization
- Title(参考訳): 宇宙機制御のための自律推論:グループ相対的ポリシー最適化を備えた大規模言語モデルフレームワーク
- Authors: Amit Jain, Richard Linares,
- Abstract要約: 本稿では,Large Language Model (LLM) と Group Relative Policy Optimization (GRPO) を結合した学習型指導制御手法を提案する。
Supervised Fine-Tuning (SFT) による2段階のプロシージャで、プリミティブのフォーマットと制御を学ぶ。
その結果、GRPOにより最適化された明示的推論を持つLLMは、線形系と非線形系の両方で一貫したトレーニング設定の下で、実現可能な安定化ポリシーを合成できることを示した。
- 参考スコア(独自算出の注目度): 2.258690092379457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a learning-based guidance-and-control approach that couples a reasoning-enabled Large Language Model (LLM) with Group Relative Policy Optimization (GRPO). A two-stage procedure consisting of Supervised Fine-Tuning (SFT) to learn formatting and control primitives, followed by GRPO for interaction-driven policy improvement, trains controllers for each environment. The framework is demonstrated on four control problems spanning a gradient of dynamical complexity, from canonical linear systems through nonlinear oscillatory dynamics to three-dimensional spacecraft attitude control with gyroscopic coupling and thrust constraints. Results demonstrate that an LLM with explicit reasoning, optimized via GRPO, can synthesize feasible stabilizing policies under consistent training settings across both linear and nonlinear systems. The two-stage training methodology enables models to generate control sequences while providing human-readable explanations of their decision-making process. This work establishes a foundation for applying GRPO-based reasoning to autonomous control systems, with potential applications in aerospace and other safety-critical domains.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) と Group Relative Policy Optimization (GRPO) を結合した学習型指導制御手法を提案する。
Supervised Fine-Tuning (SFT) による2段階のプロシージャで、プリミティブのフォーマットと制御を学ぶ。
この枠組みは、非線形振動力学による正準線形系から、ジャイロカップリングとスラスト制約による3次元宇宙船姿勢制御に至るまで、動的複雑性の勾配にまたがる4つの制御問題を実証した。
その結果、GRPOにより最適化された明示的推論を持つLLMは、線形系と非線形系の両方で一貫したトレーニング設定の下で、実現可能な安定化ポリシーを合成できることを示した。
この2段階のトレーニング手法により、モデルが意思決定プロセスの人間可読な説明を提供しながら、制御シーケンスを生成することができる。
この研究は、GRPOベースの推論を自律制御システムに適用するための基盤を確立し、航空宇宙やその他の安全上重要な分野に応用する可能性がある。
関連論文リスト
- Plasma Shape Control via Zero-shot Generative Reinforcement Learning [17.3934551430283]
PID制御放電の大規模オフラインデータセットから多目的ゼロショット制御ポリシーを開発するための新しいフレームワークを開発する。
結果として得られる基本方針は、タスク固有の微調整なしで、ゼロショットで多様な軌道追跡タスクに対して展開することができる。
論文 参考訳(メタデータ) (2025-10-20T13:34:51Z) - Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの最大原理を用いた最適制御戦略を開発する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Online Algorithms and Policies Using Adaptive and Machine Learning
Approaches [0.22020053359163297]
非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。
本稿では,外ループにおける強化学習に基づくポリシーの組み合わせを,名目力学の安定性と最適性を確保するために好適に選択する。
リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、持続的な励振を伴うパラメータ学習につながることも示している。
論文 参考訳(メタデータ) (2021-05-13T22:51:25Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Extended Radial Basis Function Controller for Reinforcement Learning [3.42658286826597]
本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。
線形制御器は、局所線形化モデル知識に基づいて設計され、運転点付近のシステムを安定化する。
学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。
論文 参考訳(メタデータ) (2020-09-12T20:56:48Z) - Pontryagin Differentiable Programming: An End-to-End Learning and
Control Framework [108.4560749465701]
ポントリャーギン微分プログラミングの方法論は、幅広い種類の学習と制御タスクを解決するための統一されたフレームワークを確立する。
本研究では, PDP の逆強化学習, システム識別, 制御・計画の3つの学習モードについて検討する。
マルチリンクロボットアーム,6-DoFオペレーティングクオーロレータ,6-DoFロケット搭載着陸など,多次元システムにおける学習モード毎のPDPの能力を示す。
論文 参考訳(メタデータ) (2019-12-30T15:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。