論文の概要: Multi-Phase Spacecraft Trajectory Optimization via Transformer-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.11402v1
- Date: Fri, 14 Nov 2025 15:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.680271
- Title: Multi-Phase Spacecraft Trajectory Optimization via Transformer-Based Reinforcement Learning
- Title(参考訳): 変圧器を用いた強化学習による多相宇宙機軌道最適化
- Authors: Amit Jain, Victor Rodriguez-Fernandez, Richard Linares,
- Abstract要約: 本研究では,単一ポリシアーキテクチャを通じて多相軌道最適化を統一するトランスフォーマーベースのRLフレームワークを提案する。
その結果, トランスフォーマーをベースとしたフレームワークは, 単純な場合だけでなく, 動的に異なる状況下で協調的な制御ポリシーを効果的に学習することを示した。
- 参考スコア(独自算出の注目度): 2.034091340570242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous spacecraft control for mission phases such as launch, ascent, stage separation, and orbit insertion remains a critical challenge due to the need for adaptive policies that generalize across dynamically distinct regimes. While reinforcement learning (RL) has shown promise in individual astrodynamics tasks, existing approaches often require separate policies for distinct mission phases, limiting adaptability and increasing operational complexity. This work introduces a transformer-based RL framework that unifies multi-phase trajectory optimization through a single policy architecture, leveraging the transformer's inherent capacity to model extended temporal contexts. Building on proximal policy optimization (PPO), our framework replaces conventional recurrent networks with a transformer encoder-decoder structure, enabling the agent to maintain coherent memory across mission phases spanning seconds to minutes during critical operations. By integrating a Gated Transformer-XL (GTrXL) architecture, the framework eliminates manual phase transitions while maintaining stability in control decisions. We validate our approach progressively: first demonstrating near-optimal performance on single-phase benchmarks (double integrator and Van der Pol oscillator), then extending to multiphase waypoint navigation variants, and finally tackling a complex multiphase rocket ascent problem that includes atmospheric flight, stage separation, and vacuum operations. Results demonstrate that the transformer-based framework not only matches analytical solutions in simple cases but also effectively learns coherent control policies across dynamically distinct regimes, establishing a foundation for scalable autonomous mission planning that reduces reliance on phase-specific controllers while maintaining compatibility with safety-critical verification protocols.
- Abstract(参考訳): 打上げ、上昇、ステージ分離、軌道の挿入といったミッションフェーズの自律的な宇宙船制御は、動的に異なる体制にまたがる適応的な政策を必要とするため、依然として重要な課題である。
強化学習(RL)は、個々の天体力学のタスクにおいて有望であるが、既存のアプローチでは、異なるミッションフェーズに対して別々のポリシーを必要とし、適応性を制限し、運用上の複雑さを増大させる。
この研究はトランスフォーマーベースのRLフレームワークを導入し、単一のポリシーアーキテクチャを通じて多相軌道最適化を統一し、トランスフォーマー固有の能力を活用して拡張時間文脈をモデル化する。
提案フレームワークは,PPO(Pximal Policy Optimization)に基づいて,従来のリカレントネットワークをトランスフォーマーエンコーダデコーダ構造に置き換える。
Gated Transformer-XL (GTrXL) アーキテクチャを統合することで、制御決定の安定性を維持しながら、手動の位相遷移を排除できる。
まず、単相ベンチマーク(ダブルインテグレータとファンデルポル発振器)でほぼ最適性能を示し、その後、多相経路航法に拡張し、最終的に大気飛行、ステージ分離、真空操作を含む複雑な多相ロケット上昇問題に取り組む。
その結果、トランスフォーマーベースのフレームワークは、単純な場合だけでなく、動的に異なる体制をまたいだ一貫性のある制御ポリシーを効果的に学習し、安全クリティカルな検証プロトコルとの互換性を維持しつつ、位相依存型コントローラへの依存を軽減し、スケーラブルな自律ミッションプランニングの基盤を確立した。
関連論文リスト
- Multi-Agent Path Finding via Offline RL and LLM Collaboration [0.0]
Multi-Agent Path Finding (MAPF) は、ロボティクスやロジスティクスの応用において重要な課題となる。
決定変換器(DT)に基づく効率的な分散化計画フレームワークを提案する。
提案手法は,長期信用割当を効果的に処理し,疎度と遅延報酬を伴うシナリオの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-26T09:53:40Z) - DyTTP: Trajectory Prediction with Normalization-Free Transformers [0.0]
トランスフォーマーベースのアーキテクチャは、複雑な堅牢性依存関係をキャプチャする上で大きな可能性を証明している。
これらの課題に対処するための2つのアプローチを提案する。
まず、トランスフォーマーを促進する最新の方法であるDynamicTanh(DyT)をバックボーンに統合し、従来のレイヤ正規化を置き換える。
DyTを軌道予測タスクにデプロイする最初の作業です。
論文 参考訳(メタデータ) (2025-04-07T09:26:25Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - A Coalition Game for On-demand Multi-modal 3D Automated Delivery System [4.378407481656902]
都市環境におけるラストマイル配送に対処するため、2つのオーバーレイネットワークで運用するUAVとADRの連合ゲームを導入する。
戦略的協調が全体のルーティング効率をいかに向上させるかを把握するためのモード間の協調構造について検討する。
ミシサガ市におけるケーススタディの結果から,ラストマイル配送の応用に関するいくつかの数値実験が実施されている。
論文 参考訳(メタデータ) (2024-12-23T03:50:29Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Generalizable Spacecraft Trajectory Generation via Multimodal Learning with Transformers [14.176630393074149]
本稿では,様々な問題構成にまたがって一般化する新しいトラジェクトリ生成フレームワークを提案する。
我々は、データソースから学習できる高容量トランスフォーマーニューラルネットワークを活用している。
このフレームワークはフリーフライアプラットフォームでのシミュレーションと実験を通じて検証されている。
論文 参考訳(メタデータ) (2024-10-15T15:55:42Z) - Proximal Policy Optimization-based Transmit Beamforming and Phase-shift
Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。
透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文 参考訳(メタデータ) (2022-03-21T09:15:18Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。