論文の概要: Transformers As Generalizable Optimal Controllers
- arxiv url: http://arxiv.org/abs/2603.14910v1
- Date: Mon, 16 Mar 2026 07:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.851393
- Title: Transformers As Generalizable Optimal Controllers
- Title(参考訳): 一般化可能な最適コントローラとしてのトランスフォーマー
- Authors: Turki Bin Mohaya, Maitham F. AL-Sunni, John M. Dolan, Peter Seiler,
- Abstract要約: 異種多入力多出力(MIMO)線形時間不変(LTI)システムの状態フィードバック法則を1つの学習コントローラで捉えることができるかを検討した。
我々は、標準化、パディング、次元符号化、マスク付き損失の共有表現を用いて、異なる状態と入力次元を持つシステムからLQR生成軌道上の1つのトランスフォーマーポリシーを訓練する。
幅広いシステムの全体にわたって、LQR(Linear Quadratic Regulator)と比較して経験的に小さな準最適性を実現し、中程度のパラメータ摂動の下で安定し続け、目に見えないシステムの軽量な微調整の恩恵を受ける。
- 参考スコア(独自算出の注目度): 14.889781937667067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study whether optimal state-feedback laws for a family of heterogeneous Multiple-Input, Multiple-Output (MIMO) Linear Time-Invariant (LTI) systems can be captured by a single learned controller. We train one transformer policy on LQR-generated trajectories from systems with different state and input dimensions, using a shared representation with standardization, padding, dimension encoding, and masked loss. The policy maps recent state history to control actions without requiring plant matrices at inference time. Across a broad set of systems, it achieves empirically small sub-optimality relative to Linear Quadratic Regulator (LQR), remains stabilizing under moderate parameter perturbations, and benefits from lightweight fine-tuning on unseen systems. These results support transformer policies as practical approximators of near-optimal feedback laws over structured linear-system families.
- Abstract(参考訳): 異種多入力多出力(MIMO)線形時間不変(LTI)システムの状態フィードバック法則を1つの学習コントローラで捉えることができるかを検討した。
我々は、標準化、パディング、次元符号化、マスク付き損失の共有表現を用いて、異なる状態と入力次元を持つシステムからLQR生成軌道上の1つのトランスフォーマーポリシーを訓練する。
この政策は、最近の州の歴史を、推論時に植物行列を必要とせずに、行動を制御するためにマッピングする。
幅広いシステムの全体にわたって、LQR(Linear Quadratic Regulator)と比較して経験的に小さな準最適性を実現し、中程度のパラメータ摂動の下で安定し続け、目に見えないシステムの軽量な微調整の恩恵を受ける。
これらの結果は、構造線形系族に対する準最適フィードバック則の実用的な近似器としてトランスフォーマーポリシーを支持する。
関連論文リスト
- Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。
NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。
これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。
提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文 参考訳(メタデータ) (2024-11-15T10:44:29Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Adaptive Online Non-stochastic Control [10.25772015681554]
我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
FTRL(Follow The Regularized Leader)フレームワークを、実際に目撃されたコストに比例した正規化子を使用することで、動的システムに調整します。
論文 参考訳(メタデータ) (2023-10-02T12:32:24Z) - Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results? [66.52698983694613]
本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。
本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。
より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
論文 参考訳(メタデータ) (2023-07-29T00:51:26Z) - Robust stabilization of polytopic systems via fast and reliable neural
network-based approximations [2.2299983745857896]
ポリトピック不確実性を有する線形システムに対する従来の安定化制御器の高速かつ信頼性の高いニューラルネットワーク(NN)に基づく近似設計について検討する。
訓練された修正線形単位(ReLU)に基づく近似が従来の制御系に取って代わる場合、線形不確かさシステムの閉ループ安定性と性能を証明する。
論文 参考訳(メタデータ) (2022-04-27T21:58:07Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。