論文の概要: GUIDE: Guided Updates for In-context Decision Evolution in LLM-Driven Spacecraft Operations
- arxiv url: http://arxiv.org/abs/2603.27306v1
- Date: Sat, 28 Mar 2026 15:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.892357
- Title: GUIDE: Guided Updates for In-context Decision Evolution in LLM-Driven Spacecraft Operations
- Title(参考訳): GUIDE: LLM駆動宇宙機運用におけるコンテキスト内決定進化のためのガイド更新
- Authors: Alejandro Carrasco, Mariko Storey-Matsutani, Victor Rodriguez-Fernandez, Richard Linares,
- Abstract要約: scGUIDEは、非パラメトリックポリシー改善フレームワークであり、重み付け更新なしでクロスエポソード適応を可能にする。
軽量な演技モデルがリアルタイム制御を行い、オフラインリフレクションが以前の軌道からプレイブックを更新する。
その結果、LLMエージェントのコンテキスト進化は、リアルタイム閉ループ宇宙船間相互作用における構造化決定規則に対するポリシー探索として機能することが示唆された。
- 参考スコア(独自算出の注目度): 37.923614000397556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been proposed as supervisory agents for spacecraft operations, but existing approaches rely on static prompting and do not improve across repeated executions. We introduce \textsc{GUIDE}, a non-parametric policy improvement framework that enables cross-episode adaptation without weight updates by evolving a structured, state-conditioned playbook of natural-language decision rules. A lightweight acting model performs real-time control, while offline reflection updates the playbook from prior trajectories. Evaluated on an adversarial orbital interception task in the Kerbal Space Program Differential Games environment, GUIDE's evolution consistently outperforms static baselines. Results indicate that context evolution in LLM agents functions as policy search over structured decision rules in real-time closed-loop spacecraft interaction.
- Abstract(参考訳): 大型言語モデル(LLM)は、宇宙船操作の監督エージェントとして提案されているが、既存のアプローチは静的なプロンプトに依存しており、繰り返し実行される間は改善されない。
我々は、自然言語決定規則の構造化された状態条件のプレイブックを進化させることにより、重み更新を伴わずに、クロスエポソード適応を可能にする非パラメトリックポリシー改善フレームワークである「textsc{GUIDE}」を紹介した。
軽量な演技モデルがリアルタイム制御を行い、オフラインリフレクションが以前の軌道からプレイブックを更新する。
Kerbal Space Program Differential Games環境における対角軌道インターセプションタスクの評価により、GUIDEの進化は静的ベースラインを一貫して上回る。
その結果、LLMエージェントのコンテキスト進化は、リアルタイム閉ループ宇宙船間相互作用における構造化決定規則に対するポリシー探索として機能することが示唆された。
関連論文リスト
- Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning [1.6641413441634143]
本稿では,モバイルロボットシステムにおけるタスクレベル計画の解釈のための新しい言語強化学習フレームワークを提案する。
このフレームワークはクローズドループアーキテクチャに従い、物理的環境との相互作用を通じて反復的なポリシー改善を可能にする。
提案手法は,実行不確実性下で複数段操作およびナビゲーションタスクを行う実移動ロボット上で検証される。
論文 参考訳(メタデータ) (2026-03-23T16:28:36Z) - Online Adaptive Reinforcement Learning with Echo State Networks for Non-Stationary Dynamics [0.5745796568988237]
本稿では,Reservoir Computingに基づく強化学習のための軽量オンライン適応フレームワークを提案する。
具体的には,Echo State Networks (ESNs) を適応モジュールとして統合し,最近の観測履歴を潜在文脈表現にエンコードする。
厳しい環境変化を伴うCartPoleおよびHalfCheetahタスクに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2026-02-06T02:51:01Z) - VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - Position: Agentic Evolution is the Path to Evolving LLMs [56.733933092220845]
この制限に対処するには、新たなスケーリング軸進化が必要です。
既存の展開時適応手法では、障害を診断し、持続的な改善を生み出すために必要な戦略的機関が欠如している。
論文 参考訳(メタデータ) (2026-01-30T22:15:58Z) - From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning [10.98910502098502]
空間的推論を原子構造ブロックとその構成に分解する2段階の手法を提案する。
まず, モデルに基本空間物理学を組み込むために, 回転, 翻訳, スケーリングなどの基本空間変換の教師付き微調整を適用する。
次に、この物理認識モデルを凍結し、GRPOフレームワーク内で軽量のLoRAアダプタを訓練し、これらのビルディングブロックを構成するポリシーを学習し、マルチステッププランニングする。
論文 参考訳(メタデータ) (2025-12-31T00:36:03Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。