論文の概要: Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems
- arxiv url: http://arxiv.org/abs/2509.18404v1
- Date: Mon, 22 Sep 2025 20:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.57685
- Title: Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems
- Title(参考訳): パラメトリック最適制御問題に対するゼロショット転送可能解法
- Authors: Xingjian Li, Kelvin Kan, Deepanshu Verma, Krishna Kumar, Stanley Osher, Ján Drgoňa,
- Abstract要約: 本稿では,関数エンコーダ (FE) ポリシを用いた最適制御問題の伝達可能な解を提案する。
提案手法は,制御ポリシ空間にまたがる再利用可能な神経基盤関数の集合を学習する。
様々な力学,次元,コスト構造に関する数値実験により,本手法が最小限のオーバーヘッドで最適に近い性能を実現することを示す。
- 参考スコア(独自算出の注目度): 2.365391421959969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a transferable solution method for optimal control problems with varying objectives using function encoder (FE) policies. Traditional optimization-based approaches must be re-solved whenever objectives change, resulting in prohibitive computational costs for applications requiring frequent evaluation and adaptation. The proposed method learns a reusable set of neural basis functions that spans the control policy space, enabling efficient zero-shot adaptation to new tasks through either projection from data or direct mapping from problem specifications. The key idea is an offline-online decomposition: basis functions are learned once during offline imitation learning, while online adaptation requires only lightweight coefficient estimation. Numerical experiments across diverse dynamics, dimensions, and cost structures show our method delivers near-optimal performance with minimal overhead when generalizing across tasks, enabling semi-global feedback policies suitable for real-time deployment.
- Abstract(参考訳): 本稿では,関数エンコーダ (FE) ポリシを用いた最適制御問題の伝達可能な解法を提案する。
従来の最適化に基づくアプローチは、目的が変わるたびに再解決されなければならないため、頻繁な評価と適応を必要とするアプリケーションに対する計算コストが禁じられる。
提案手法は、制御ポリシ空間にまたがる再利用可能なニューラルネットワーク基底関数の集合を学習し、データからの投影または問題仕様からの直接マッピングにより、新しいタスクへの効率的なゼロショット適応を可能にする。
基本関数はオフラインの模倣学習中に一度学習され、オンライン適応は軽量な係数推定のみを必要とする。
様々な力学,次元,コスト構造に関する数値実験により,タスクを一般化する際のオーバーヘッドを最小限に抑えた準最適性能を実現し,リアルタイム展開に適した半グローバルフィードバックポリシを実現する。
関連論文リスト
- Were Residual Penalty and Neural Operators All We Needed for Solving Optimal Control Problems? [0.0]
我々は、DeepONetのような単純なニューラルネットワークアーキテクチャが、単一の物理インフォームドトレーニングフェーズとその後の最適化フェーズで複数の最適制御問題を解くことができることを示す。
本結果は,より複雑で高次元的な問題に対して,実用的応用に許容できる精度と潜在的な計算節約効果を示す。
論文 参考訳(メタデータ) (2025-06-05T08:22:16Z) - Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。
決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文 参考訳(メタデータ) (2025-05-19T10:40:30Z) - Self-Supervised Penalty-Based Learning for Robust Constrained Optimization [4.297070083645049]
本稿では,自己教師付きペナルティに基づく損失関数を用いた学習に基づいて,パラメータ化制約付きロバスト最適化のための新しい手法を提案する。
我々のアプローチは、従来の解法よりも推論時間がかなり小さいニューラルネットワーク近似を効果的に学習することができる。
論文 参考訳(メタデータ) (2025-03-07T06:42:17Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Learning Adaptive Evolutionary Computation for Solving Multi-Objective
Optimization Problems [3.3266268089678257]
本稿では, 深層強化学習(DRL)を用いた適応パラメータ制御とMOEAを統合したフレームワークを提案する。
DRLポリシは、最適化中のソリューションに対する突然変異の強度と確率を決定する値を適応的に設定するように訓練されている。
学習されたポリシーは転送可能であることを示す。つまり、単純なベンチマーク問題で訓練されたポリシーは、複雑な倉庫最適化問題を解決するために直接適用可能である。
論文 参考訳(メタデータ) (2022-11-01T22:08:34Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。