論文の概要: Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling
- arxiv url: http://arxiv.org/abs/2603.08447v1
- Date: Mon, 09 Mar 2026 14:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.209075
- Title: Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling
- Title(参考訳): ハイブリッド評価に基づく遺伝的プログラミングによる不確実なアジャイル地球観測衛星スケジューリングのための効率的なポリシー学習
- Authors: Junhua Xue, Yuning Chen,
- Abstract要約: アジャイル地球観測衛星スケジューリング問題(UAEOSSP)は、新しい最適化問題である。
利益、資源消費、可視性の不確実性が組み込まれており、事前計画されたスケジュールが最適でないか、あるいは不可能である可能性がある。
本稿では,UAEOSSPを効果的に解くためのHybrid Evaluation-based Genetic Programming (HE-GP)を提案する。
- 参考スコア(独自算出の注目度): 9.222330889042016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Uncertain Agile Earth Observation Satellite Scheduling Problem (UAEOSSP) is a novel combinatorial optimization problem and a practical engineering challenge that aligns with the current demands of space technology development. It incorporates uncertainties in profit, resource consumption, and visibility, which may render pre-planned schedules suboptimal or even infeasible. Genetic Programming Hyper-Heuristic (GPHH) shows promise for evolving interpretable scheduling policies; however, their simulation-based evaluation incurs high computational costs. Moreover, the design of the constructive method, denoted as Online Scheduling Algorithm (OSA), directly affects fitness assessment, resulting in evaluation-dependent local optima within the policy space. To address these issues, this paper proposes a Hybrid Evaluation-based Genetic Programming (HE-GP) for effectively solving UAEOSSP. A Hybrid Evaluation (HE) mechanism is integrated into the policy-driven OSA, combining exact and approximate filtering modes: exact mode ensures evaluation accuracy through elaborately designed constraint verification modules, while approximate mode reduces computational overhead via simplified logic. HE-GP dynamically switches between evaluation models based on real-time evolutionary state information. Experiments on 16 simulated instance sets demonstrate that HE-GP significantly outperforms handcrafted heuristics and single-evaluation based GPHH, achieving substantial reductions in computational cost while maintaining excellent scheduling performance across diverse scenarios. Specifically, the average training time of HE-GP was reduced by 17.77\% compared to GP employing exclusively exact evaluation, while the optimal policy generated by HE-GP achieved the highest average ranks across all scenarios.
- Abstract(参考訳): Uncertain Agile Earth Observation Satellite Scheduling Problem (UAEOSSP)は、新しい組合せ最適化問題であり、宇宙技術開発の現在の要求に沿った実践的なエンジニアリング課題である。
利益、資源消費、可視性の不確実性が組み込まれており、事前計画されたスケジュールが最適でないか、あるいは不可能である可能性がある。
遺伝的プログラミングハイパーヒューリスティック(GPHH)は、解釈可能なスケジューリングポリシーの進化を約束するが、シミュレーションに基づく評価は高い計算コストをもたらす。
さらに、オンラインスケジューリングアルゴリズム(OSA)と呼ばれる構成手法の設計は、フィットネスアセスメントに直接影響を与え、ポリシー空間内で評価依存の局所最適化をもたらす。
これらの課題に対処するため,UAEOSSPを効果的に解くためのHybrid Evaluation-based Genetic Programming (HE-GP)を提案する。
厳密な設計による制約検証モジュールによる評価精度を保証する一方で、近似モードは単純化されたロジックによる計算オーバーヘッドを低減する。
HE-GPはリアルタイム進化状態情報に基づいて評価モデル間で動的に切り替える。
16のシミュレートされたインスタンスセットの実験では、HE-GPはハンドクラフトのヒューリスティックスと単一評価に基づくGPHHを著しく上回り、計算コストを大幅に削減し、様々なシナリオで優れたスケジューリング性能を維持している。
具体的には, HE-GPの平均トレーニング時間は, 厳密な評価を用いたGPと比較して17.77\%削減され, HE-GPが生成した最適ポリシーはすべてのシナリオで最高の平均ランクに達した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - An effective Genetic Programming Hyper-Heuristic for Uncertain Agile Satellite Scheduling [7.511388506308957]
効果的な遺伝的プログラミングハイパーヒューリスティックはスケジューリングポリシーの生成を自動化するように設計されている。
進化したスケジューリングポリシーは、リアルタイムで計画を調整するために利用することができ、非常にうまく機能する。
論文 参考訳(メタデータ) (2026-02-15T02:09:57Z) - PGU-SGP: A Pheno-Geno Unified Surrogate Genetic Programming For Real-life Container Terminal Truck Scheduling [7.678307721780809]
本稿では,代用サンプル選択と適合性予測を強化するために,表現ジェノリック・サロゲートGPアルゴリズムPGU-SGPを提案する。
同じトレーニング時間で、PGU-SGPは従来のGPと最先端のアルゴリズムを多くのデータセットで大幅に上回っている。
論文 参考訳(メタデータ) (2025-04-15T15:19:42Z) - CSF: Fixed-outline Floorplanning Based on the Conjugate Subgradient Algorithm Assisted by Q-Learning [9.16178663078742]
共役劣等化アルゴリズム(CSA)による非滑らかな解析フロアプランニングモデルを提案する。
MCNCおよびGSRCベンチマークの実験結果から、CSAQ(CSF)に基づく固定アウトラインフロアプランニングアルゴリズムが提案されていることが示されている。
また、CSFはハードモジュールのみを含むフロアプランニングシナリオにおける最先端のアルゴリズムと競合することを示した。
論文 参考訳(メタデータ) (2025-04-04T04:01:26Z) - Towards safe and tractable Gaussian process-based MPC: Efficient sampling within a sequential quadratic programming framework [35.79393879150088]
本稿では,制約満足度を高い確率で保証する頑健なGP-MPCの定式化を提案する。
提案手法は,既存手法とリアルタイム実現可能な時間に比較して,改良された到達可能集合近似を強調した。
論文 参考訳(メタデータ) (2024-09-13T08:15:20Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。