論文の概要: Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems
- arxiv url: http://arxiv.org/abs/2509.18404v1
- Date: Mon, 22 Sep 2025 20:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.57685
- Title: Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems
- Title(参考訳): パラメトリック最適制御問題に対するゼロショット転送可能解法
- Authors: Xingjian Li, Kelvin Kan, Deepanshu Verma, Krishna Kumar, Stanley Osher, Ján Drgoňa,
- Abstract要約: 本稿では,関数エンコーダ (FE) ポリシを用いた最適制御問題の伝達可能な解を提案する。
提案手法は,制御ポリシ空間にまたがる再利用可能な神経基盤関数の集合を学習する。
様々な力学,次元,コスト構造に関する数値実験により,本手法が最小限のオーバーヘッドで最適に近い性能を実現することを示す。
- 参考スコア(独自算出の注目度): 2.365391421959969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a transferable solution method for optimal control problems with varying objectives using function encoder (FE) policies. Traditional optimization-based approaches must be re-solved whenever objectives change, resulting in prohibitive computational costs for applications requiring frequent evaluation and adaptation. The proposed method learns a reusable set of neural basis functions that spans the control policy space, enabling efficient zero-shot adaptation to new tasks through either projection from data or direct mapping from problem specifications. The key idea is an offline-online decomposition: basis functions are learned once during offline imitation learning, while online adaptation requires only lightweight coefficient estimation. Numerical experiments across diverse dynamics, dimensions, and cost structures show our method delivers near-optimal performance with minimal overhead when generalizing across tasks, enabling semi-global feedback policies suitable for real-time deployment.
- Abstract(参考訳): 本稿では,関数エンコーダ (FE) ポリシを用いた最適制御問題の伝達可能な解法を提案する。
従来の最適化に基づくアプローチは、目的が変わるたびに再解決されなければならないため、頻繁な評価と適応を必要とするアプリケーションに対する計算コストが禁じられる。
提案手法は、制御ポリシ空間にまたがる再利用可能なニューラルネットワーク基底関数の集合を学習し、データからの投影または問題仕様からの直接マッピングにより、新しいタスクへの効率的なゼロショット適応を可能にする。
基本関数はオフラインの模倣学習中に一度学習され、オンライン適応は軽量な係数推定のみを必要とする。
様々な力学,次元,コスト構造に関する数値実験により,タスクを一般化する際のオーバーヘッドを最小限に抑えた準最適性能を実現し,リアルタイム展開に適した半グローバルフィードバックポリシを実現する。
関連論文リスト
- Were Residual Penalty and Neural Operators All We Needed for Solving Optimal Control Problems? [0.0]
我々は、DeepONetのような単純なニューラルネットワークアーキテクチャが、単一の物理インフォームドトレーニングフェーズとその後の最適化フェーズで複数の最適制御問題を解くことができることを示す。
本結果は,より複雑で高次元的な問題に対して,実用的応用に許容できる精度と潜在的な計算節約効果を示す。
論文 参考訳(メタデータ) (2025-06-05T08:22:16Z) - Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。
決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文 参考訳(メタデータ) (2025-05-19T10:40:30Z) - Self-Supervised Penalty-Based Learning for Robust Constrained Optimization [4.297070083645049]
本稿では,自己教師付きペナルティに基づく損失関数を用いた学習に基づいて,パラメータ化制約付きロバスト最適化のための新しい手法を提案する。
我々のアプローチは、従来の解法よりも推論時間がかなり小さいニューラルネットワーク近似を効果的に学習することができる。
論文 参考訳(メタデータ) (2025-03-07T06:42:17Z) - Solving Functional Optimization with Deep Networks and Variational Principles [0.2633434651741688]
機能最適化問題を解くために、変分法を利用してディープニューラルネットワークを設計する方法を示す。
我々のアプローチは、最小時間制御問題のような未知の間隔で定義された関数やサポートテキストエマダッシュである場合に重要である。
地上データに頼ることなく、教師なしでCalVNetを訓練できることが示される。
論文 参考訳(メタデータ) (2024-10-08T18:21:35Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Learning Adaptive Evolutionary Computation for Solving Multi-Objective
Optimization Problems [3.3266268089678257]
本稿では, 深層強化学習(DRL)を用いた適応パラメータ制御とMOEAを統合したフレームワークを提案する。
DRLポリシは、最適化中のソリューションに対する突然変異の強度と確率を決定する値を適応的に設定するように訓練されている。
学習されたポリシーは転送可能であることを示す。つまり、単純なベンチマーク問題で訓練されたポリシーは、複雑な倉庫最適化問題を解決するために直接適用可能である。
論文 参考訳(メタデータ) (2022-11-01T22:08:34Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。